Multi-Agent ist populär geworden, aber die Organisationskrankheit von KI wird noch von niemandem behandelt.
Abgesehen von Harness ist 2026 eines der heißesten Konzepte im Agentenbereich das der Multi-Agenten, ja sogar der Agentenschwärme.
Codex, Claude Code, Cursor, Devin, Kimi, Manus – fast alle KI - Unternehmen gehen in diese Richtung. Denn mit zunehmender Komplexität der Aufgaben reicht die Fähigkeit eines einzelnen Agenten nicht mehr aus, also setzt man eine Gruppe von Agenten ein. Ist ein Agent zu langsam, werden mehrere Agenten parallel eingesetzt.
So arbeitet auch der Mensch. Ein Unternehmen besteht nicht aus einem Superangestellten, sondern aus einer Organisation. Der Projektmanager teilt die Aufgaben auf, die Ingenieure schreiben Code, das Testteam sucht nach Fehlern, und das Rechts- und Sicherheitsteam übernimmt die Absicherung.
Wenn der Mensch komplexe Probleme durch organisatorische Arbeitsteilung lösen kann, warum sollte die KI das nicht können?
In den letzten 12 Monaten hat die Branche tatsächlich großen Fortschritt in dieser Richtung gemacht. Dank der Verbesserungen bei Harness und der Verbesserung der Modellfähigkeiten können Aufgaben aufgeteilt, die Parallelität isoliert, die Zugriffsrechte kontrolliert, Fehler überprüft und Protokolle verfolgt werden.
Das gibt den Anlass, Agenten in Gruppen auszuwählen, um Aufgaben zu erledigen.
Dennoch sind die tiefer liegenden Probleme nicht gelöst.
In einer Reihe von Studien in den letzten 12 Monaten haben wir festgestellt, dass Agenten, wenn sie zusammenkommen, nicht nur kollidieren, um Sperren kämpfen oder Code überschreiben. Sie verhalten sich auch wie menschliche Organisationen: Sie folgen der Masse, anpassen sich, schieben die Schuld ab, erreichen zu früh Konsens, sozialisieren fehlerhaft und es kann sogar zu einer Diskrepanz zwischen öffentlicher Äußerung und privatem Urteil kommen.
In diesem Jahr haben wir sogar festgestellt, dass es sich nicht um eine flache Problemliste handelt, sondern um einen sich nach innen erstreckenden Riss.
Das Ziel dieses Artikels ist es, die verschiedenen Ebenen der Probleme, denen die Multi-Agentenstruktur gegenwärtig gegenübersteht, zu klären. Wir wollen herausfinden, wie tief der Riss unter der Zusammenarbeit von Agenten tatsächlich reicht.
01
Erste Ebene: Die externen Organisationsprobleme, die Harness behandelt
Das erste Problem, das Multi-Agenten begegnen, ist die Frage, wie Agenten zusammenarbeiten können, um sicherzustellen, dass die Aufgaben erfüllt werden.
Man kann nicht einfach Dutzende von Agenten in einem Repository frei agieren lassen. Es muss eine effektive Organisationsform geben, die diese unabhängig agierenden Agenten zu einer Einheit zusammenführt.
Das, was Harness macht, ist es, eine Gruppe instabiler Ausführungseinheiten in eine externe Organisationsstruktur zu bringen.
Der Planner ist wie ein Projektmanager und teilt die Aufgaben auf. Der Worker ist wie ein Ausführungsangestellter und erledigt die konkreten Aufgaben. Das Sitzungsprotokoll ist wie ein Meetingprotokoll und notiert den Verlauf. Das gemeinsame Dateisystem ist wie ein gemeinsamer Dateischrank und speichert Zwischenergebnisse. Die Review-Warteschlange ist wie ein letzter Prüfstand, der die endgültige Ausgabe anhält, bis der Mensch sie geprüft hat.
Einfach ausgedrückt, schafft Harness für Maschinen ein Unternehmenssystem.
Aber wenn die Architektur vorhanden ist, wird die Informationsflusssteuerung zum Kernproblem.
Die Forschung zu Cursor's Long - Range Coding Agent kann dieses Problem gut veranschaulichen. Sie haben zunächst versucht, mehrere Agenten gleichberechtigt zusammenarbeiten zu lassen und die Zustandsdatei zu verwenden, um zu protokollieren, wer was macht. Jeder Agent liest den Zustand, nimmt Aufgaben an und aktualisiert den Zustand. Um die Aufgabe zu vermeiden, haben Sie eine Sperre hinzugefügt.
Aber diese einfache Methode funktioniert nicht gut.
Agenten können die Sperre zu lange halten, vergessen, die Sperre freizugeben oder die Sperre an der falschen Stelle setzen. Selbst wenn die Sperrmechanik annähernd korrekt ist, wird sie zum Engpass. Cursor schreibt in seiner offiziellen Dokumentation, dass die Durchsatzleistung bei 20 gleichzeitig arbeitenden Agenten auf das Niveau von 1 bis 3 Agenten sinkt, da die meisten Zeit mit dem Warten auf die Sperre verbracht wird.
Was noch schwieriger ist, ist, dass Agenten sich für sichere Aufgaben entscheiden. Wenn es keine klaren Verantwortungsgrenzen gibt, wollen sie keine großen, komplexen und konfliktanfälligen Aufgaben angehen, sondern lieber Kommentare ändern, Eckdaten ergänzen oder das Format organisieren.
Die Intelligenz ist vorhanden, aber die Organisationsstruktur funktioniert nicht.
Deshalb hat Cursor später das System in eine hierarchische Struktur aus Root - Planner, Sub - Planner und Worker umgewandelt. Der Planner versteht den gesamten Aufgabenbereich und teilt die Aufgaben auf. Der Worker ist nur für lokale Aufgaben zuständig, weiß nichts von einem größeren System und kommuniziert nicht horizontal mit anderen Workern. Nach Abschluss schreibt der Worker einen Übergabebericht, in dem er angibt, was er erledigt hat, was er entdeckt hat, wo die Abweichung vom Plan liegt und welche Risiken es in Zukunft gibt, und gibt ihn an den Planner weiter.
Dies zeigt, dass Harness nicht nur darüber entscheidet, „wer arbeitet“, sondern auch über den Informationsfluss.
Dies umfasst, welche Ereignisse protokolliert werden, welche Historie abgerufen wird, welche Inhalte in das Kontextfenster gelangen, wie die Ergebnisse der Experten - Worker in den Gesamtüberblick des Leit - Agenten fließen, wie während der Aufgabe zurückgeprüft und nachgefragt wird. All dies wird von einem externen System organisiert.
Es ermöglicht es einer Gruppe von Agenten, nicht aus dem Kontakt zu geraten, nicht zu kollidieren und nicht leer zu laufen. Es kann die Aktionen, die Zugriffsrechte, den Kontext, die Dateien und die Protokolle kontrollieren.
Aber dies markiert auch seine Grenzen.
Harness behandelt die externe Organisation und den externen Informationsfluss. Es kümmert sich nicht darum, ob ein Worker seine Urteile aufgrund der Art und Weise des Planners ändert, ob ein Reviewer seine Einwände aufgrund eines bereits etablierten Hauptplans aufgibt oder ob mehrere Agenten sich um einen falschen Konsens herum bewegen.
Ein Verkehrssystem kann regeln, wie Autos fahren, aber es kann nicht beeinflussen, was der Fahrer im Auto denkt.
Das zweite Problem bei Multi - Agenten beginnt hier.
02
Zweite Ebene: Die ungelösten Gruppenkognitionsprobleme
Bevor wir die zweite Ebene besprechen, müssen wir klarstellen, dass Multi - Agenten nicht nur ein paralleles Ausführungssystem, sondern auch ein Kommunikationssystem sind.
Agenten lesen die Antworten voneinander, korrigieren ihre Urteile basierend auf den Äußerungen anderer Agenten, werden von der Mehrheitsmeinung beeinflusst und geben Abweichungen auf, um Konsens zu erreichen. Solange Agenten nicht vollständig voneinander isoliert sind, teilen sie nicht nur Informationen, sondern auch Druck.
Das ist das zweite Problem. Wenn Agenten eine Gruppe bilden, beginnen bestimmte soziale Kognitionserkrankungen aufzutauchen.
Es unterscheidet sich von der ersten Ebene. Die erste Ebene behandelt, wie Agenten handeln, die zweite Ebene behandelt, wie Agenten glauben.
Die Informationen sind vorhanden, aber niemand will Offenheit zeigen
Yuxuan Li, Aoi Naito und Hirokazu Shirado haben in ihrer im Mai 2025 eingereichten Studie „Systematic Failures in Collective Reasoning under Distributed Information in Multi - Agent LLMs“ einen Test entwickelt.
Sie haben basierend auf dem Hidden - Profile - Paradigma 65 Aufgaben entworfen. Jeder Agent erhält einen Teil der Informationen, und erst wenn alle Informationen zusammengefügt werden, kann die richtige Antwort gefunden werden.
Theoretisch sollte dies genau das sein, was Multi - Agenten am besten können.
Ein Agent kann nicht alles sehen, also lassen wir mehrere Agenten jeweils lokale Fakten kennen und fügen sie dann durch Kommunikation zusammen. So funktioniert auch ein Unternehmen. Der Vertrieb kennt die Kunden, das Engineering kennt das System, das Rechtswesen kennt die Risiken, und schließlich wird in einer Sitzung entschieden.
Das Ergebnis ist, dass die Genauigkeit von Multi - Agenten unter verteilten Informationsbedingungen nur 30,1 % beträgt. Wenn man jedoch die vollständigen Informationen direkt an einen einzelnen Agenten gibt, beträgt die Genauigkeit 80,7 %.
Es handelt sich nicht um einen schlechten Informationsfluss, sondern darum, dass in der Sitzung keine versteckten Informationen herausgeholt werden. Jeder hat einen wichtigen Teil der Informationen, aber die Diskussion dreht sich nur um die Informationen, die bereits auf den Tisch gelegt wurden.
Harness kann natürlich auch einen Teil dieses Problems beheben. Beispielsweise kann man das Repository als Memo verwenden und jedem Agenten sagen, was er weiß, was er nicht weiß und worin er sich von anderen unterscheidet.
Aber das eigentliche Problem liegt tiefer. Die Agenten wissen nicht, wie sie andere befragen sollen und wann sie an ihrem eigenen Teil der Puzzle halten sollen.
Agenten tauschen nicht nur Informationen, sondern auch Druck aus
Wenn HiddenBench zeigt, dass die Informationen nicht zusammengefügt werden, geht MAEBE einen Schritt weiter. Es fragt nicht, ob die Informationen übertragen wurden, sondern warum Agenten ihre Urteile ändern.
Ein Agent kann in einer Diskussion seine Antwort ändern, aus zwei Gründen. Erstens, wenn er neue Beweise hört und nach einer neuen Überlegung feststellt, dass er sich geirrt hat. Zweitens, wenn er feststellt, dass sich alle anderen Agenten in eine bestimmte Richtung bewegen und er sich dann ebenfalls anpasst.
Das erste ist die Informationsintegration, das zweite ist der Gruppenpeer - Druck.
Sinem Erisken, Timothy Gothard, Martin Leitgab und Ram Potham haben in ihrer im Juni 2025 eingereichten Studie „MAEBE: Multi - Agent Emergent Behavior Framework“ diesen Unterschied untersucht. Sie vergleichen die Präferenzen eines einzelnen LLM, wenn es unabhängig antwortet, mit den Antwortänderungen desselben Modells, wenn es in ein Multi - Agenten - Ensemble eingebracht wird. Das Ergebnis zeigt, dass das Verhalten eines isolierten Modells das Verhalten in einer Gruppe nicht zuverlässig vorhersagen kann.
Mit anderen Worten, ein Modell, das in Alleinstellung unabhängige Urteile fällt, kann in einer Gruppe von Agenten plötzlich der Masse folgen und sich an die Stimmung halten.
MAEBE hat die Agenten, die ihre Meinung geändert haben, nach den Gründen gefragt, und die meisten Agenten haben die Ursache auf die Meinung anderer Agenten oder den Gruppenkonsens zurückgeführt. Beispielsweise „Angesichts der Ansichten anderer“ oder „Basierend auf der Mehrheitsmeinung“ oder „Alle haben vernünftige Argumente vorgebracht“. Sie definieren dies als Peer - Pressure - Konvergenz, also den so genannten Gruppenpeer - Druck.
Aus den Daten geht hervor, dass die Unterschiede zwischen den Modellen sehr groß sind. Bei Claude wird 62,8 % der Konvergenz auf Peer - Druck zurückgeführt, bei Llama 42,7 % und bei GPT 24,8 %.
Dies zeigt zumindest, dass in einer Multi - Agenten - Diskussion die Modelle ihre Antwortänderungen zumindest als Gruppenbeeinflussung erklären. Sie sagen nicht mehr nur „Ich habe neue Fakten gesehen“, sondern „Alle anderen Agenten sehen es so, also passe ich mich an“.
Das Problem verschiebt sich von der Informationsübertragung zur Sozialisierung der Urteilsgründe.
Dieses Phänomen wird auch in der Studie „The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models“ von Yunze Xiao, Vivienne J. Zhang und anderen, die im April 2026 eingereicht wurde, teilweise bestätigt. Die Experimente zeigen, dass eine Gruppe von Agenten mit unterschiedlichen Personas in einer Gruppe einem gewissen Grad an „geometrischer Kollaps“ unterliegt. 1.144 LLMs mit unterschiedlichen Personas liegen nach der Durchführung eines psychologischen Fragebogens in nur 6 % des menschlichen Verhaltensraums. Einzeln betrachtet scheinen die Antworten der Agenten sinnvoll, aber in der Gruppengeometrie ist ihre Übereinstimmung auffällig.
Dies ist das erste Symptom der zweiten Ebene der Gruppenkognitionserkrankung, das Problem der Konvergenz.
Dahlia Shehata und Ming Li haben in ihrer im Mai 2026 eingereichten Studie „The Bystander Effect in Multi - Agent Reasoning: Quantifying Cognitive Loafing in Collaborative Interactions“ das Problem noch einen Schritt weiter gebracht.
MAEBE hat den Gruppenpeer - Druck beobachtet, und die Agenten erklären ihre Konvergenz mit „Alle sehen es so“. Shehata und Li kümmern sich nicht um diesen Aspekt. Sie untersuchen den Zuschauereffekt, d. h., ob ein einzelner Agent sein kognitives Engagement verringert, wenn eine Gruppe von Agenten gleichzeitig anwesend ist.
Das ist dem Menschen sehr ähnlich. Wenn eine Person sieht, dass jemand stürzt, geht sie möglicherweise sofort hin und hilft. Wenn jedoch zehn Personen das sehen, denkt jeder, dass „jemand anderes es übernehmen wird“. Die Verantwortung wird verdünnt, und die Handlungen werden schwächer.
In einem Multi - Agenten - System bedeutet dies, dass die kognitive Verantwortung verdünnt wird.
Bei einem einzelnen Agenten muss das Modell die Schlussfolgerung unabhängig übernehmen. Bei mehreren Agenten geht es davon aus, dass „andere es ergänzen werden“, „die Gruppe korrigieren wird“ und „ich muss die Verantwortung nicht allein tragen“. Die Studie nennt dieses Phänomen cognitive loafing, also kognitives Faulheit.
Das Modell hat intern die richtige Schlussfolgerung berechnet, aber es gibt diese Antwort nicht in der externen Ausgabe wieder. Dies liegt nicht daran, dass es von anderen überzeugt wurde, sondern daran, dass es in einem Multi - Agenten - Szenario seine Schlussfolgerungsverantwortung abgibt.