Das Kollaborationsparadoxon multipler Agenten: Ursachen, Auswirkungen und Lösungen

Damit Multi-Agent-Systeme gut funktionieren, liegt der Schlüssel in der koordinierten Zusammenarbeit.

Heutzutage propagieren sowohl Technologie-Riesen als auch Start-ups ein neues KI-Modell: Mehrere KI-Agenten sollen wie ein menschliches Team zusammenarbeiten, was angeblich die Leistungsgrenze einzelner großer Modelle überwinden kann.

Ein Forschungsbericht von IDC zeigt, dass bis 2027 60 % der großen Unternehmen kollaborative Agentensysteme einsetzen werden, was die Effizienz der Geschäftsprozesse um mehr als 50 % steigern wird.

Es scheint, als hätte die Multi-Agenten-Kollaboration einen breiten Weg zu einer stärkeren Künstlichen Intelligenz gebahnt. Aber auch in der Anfangsphase des Einsatzes gab es einige skeptische Stimmen. Einige Endnutzer haben feedback gegeben, dass bei komplexen Problemen die Antwortgenerierung durch die Multi-Agenten-Kollaboration länger dauert und der Token-Verbrauch nicht gering ist. Die Ergebnisse sind nicht so beeindruckend wie erwartet.

Theoretisch sollte die Zusammenführung von Agenten einen Effekt von „1 + 1 > 2“ erzielen. Aber warum treten dennoch in der Praxis unbefriedigende Situationen auf?

Ein einzelnes Gehirn VS ein Team

Derzeit gibt es zwei gängige Arbeitsmodelle für Agenten: der Einzel-Agent und die Multi-Agenten-Kollaboration. Ein Einzel-Agent, wie der Name schon sagt, erledigt alle Aufgaben mit einem einzigen KI-Gehirn. Top-Modelle wie ChatGPT und Claude gehören zu dieser Kategorie. Es ist wie eine Universalwerkzeugklinge, die alles von der Beantwortung von Fragen bis zum Generieren von Code selbst erledigen muss. Dieses Modell zeichnet sich durch eine einfache Struktur, geringe Kosten und leichte Verwaltung aus, hat aber eine begrenzte Leistung und birgt das Risiko eines Ausfalls an einer einzigen Stelle. Sobald die Aufgabe zu komplex wird oder das System selbst Probleme hat, kann das gesamte System zusammenbrechen.

Um die Herausforderungen komplexer Szenarien zu bewältigen, ist die Multi-Agenten-Kollaboration entstanden, die sich an der kollektiven Weisheit des Menschen orientiert.

Im Vergleich zum Einzel-Agent ist die Multi-Agenten-Kollaboration eher wie ein Team von Spezialisten mit verschiedenen Fähigkeiten. Ein Multi-Agentensystem ist ein verteiltes System, das aus mehreren Agenten besteht, die autonom wahrnehmen, entscheiden, handeln und miteinander kommunizieren und koordinieren können. Sie haben jeweils ihre eigenen Aufgaben und können durch effiziente Zusammenarbeit Ergebnisse erzielen, die weit über die Fähigkeiten eines einzelnen Agenten hinausgehen.

Der Vorteil der Multi-Agenten-Kollaboration liegt in der Aufgabenteilung und Spezialisierung, was zu einer stärkeren Problemlösungsfähigkeit führt. Nehmen wir beispielsweise einen digitalen Moderator. Der scheinbar flüssig antwortende und natürlich aussehende digitale Moderator wird nicht von einem einzelnen Modell erzeugt, sondern von einem kollaborativen Team: Ein „Sprach-Agent“ ist für die Generierung einer flüssigen Stimme zuständig, ein „Mundbewegungs-Agent“ sorgt für die Synchronisation von Aussprache und Mundbewegungen, ein „Gesichtsausdruck-Agent“ steuert die Mikroausdrücke des Gesichts, und ein „Wissens-Agent“ ist für die Echtzeit-Informationensuche und -antwortung verantwortlich. Sie haben jeweils ihre eigenen Aufgaben und können durch effiziente Zusammenarbeit ein viel realistischeres Bild schaffen, als es ein einzelner Agent könnte.

Darüber hinaus kann ein Multi-Agentensystem die ursprünglich linearen Arbeitsabläufe parallelisieren und so die Aufgabenzeit erheblich verkürzen. Die Verbesserung der Problemlösungsfähigkeit geht nicht auf Kosten der Effizienz. Beispielsweise kann in der Softwareentwicklung ein Agent für das Schreiben von Code zuständig sein, ein anderer kann gleichzeitig Tests durchführen und Fehler suchen, und ein dritter kann bereits mit der Dokumentation beginnen. Eine Studie von Anthropic zeigt, dass ein Multi-Agentensystem, in dem Claude Opus als Leiter fungiert und mehrere Claude Sonnet als Untergebenen eingesetzt werden, 90,2 % besser abschneidet als der stärkste einzelne Agent Claude Opus 4, wobei es in der Generierungszeit keine großen Unterschiede gibt.

Die Multi-Agenten-Kollaboration bringt auch eine bessere Fehlertoleranz und Skalierbarkeit. Der Einzel-Agent löst Probleme auf lineare Weise, was wie das Einsammeln aller Eier in einen Korb ist. Sobald es einen Zusammenbruch, ernsthafte Halluzinationen oder einen Angriff gibt, scheitert die gesamte Aufgabe. Die Multi-Agenten-Kollaboration hingegen hat von Natur aus Redundanz. Wenn ein Agent ausfällt, können andere Mitglieder seine Aufgaben übernehmen, um sicherzustellen, dass das System nicht ganz zusammenbricht. Diese verteilte Architektur macht es auch einfach, das System zu erweitern. Wenn neue Funktionen benötigt werden, können einfach neue Spezialisten-Agenten in das Team aufgenommen werden.

Wenn der Einzel-Agent ein Super-Individualist ist, dann ist die Multi-Agenten-Kollaboration eher wie ein kollaboratives Ökosystem. Aber wie alles in der Welt hat auch dies zwei Seiten: Je mehr Teammitglieder es gibt, desto komplexer wird die Koordination. Die größte Herausforderung besteht darin, dass diese Spezialisten nicht alleine agieren, sondern in einem Team zusammenarbeiten.

Das Paradoxon: Mehr Experten, mehr Probleme?

Je verlockender die Vorteile der Multi-Agenten-Kollaboration sind, desto schwieriger sind die potenziellen Probleme. Eine Studie mit dem Titel „Why Do Multi-Agent LLM Systems Fail?“ hat durch eine tiefe Analyse von sieben gängigen MAS-Frameworks und über 200 Aufgaben die zugrunde liegende Logik des Problems „Mehr Experten, mehr Probleme“ aufgedeckt: Je mehr die Aufgabe aufgeteilt wird, desto schwieriger ist es, die Ziele zu koordinieren und die Ergebnisse zu kontrollieren.

Das offensichtlichste Problem ist die Abnahme der Genauigkeit bei einigen komplexen Problemen. Theoretisch ist die Kraft in der Anzahl, aber je mehr Agenten es gibt, desto schwieriger wird die Kommunikation und Überwachung. Fehlinterpretationen oder das Verpassen von wichtigen Details können dazu führen, dass die Teil-Agenten nur einen Teil des Ganzen sehen und die Effizienz sinkt. Studien zeigen, dass Agenten möglicherweise die Anforderungen missverstehen, ändern oder ignorieren. Im schlimmsten Fall liegt die Genauigkeit nur bei 25 %, was schlechter ist als die beste Stichprobe eines Einzel-Agenten. Nehmen wir wieder den digitalen Moderator als Beispiel. Wenn die Verzögerung zwischen dem Mundbewegungs-Agenten und dem Sprach-Agenten nicht perfekt synchronisiert ist, wird das Ergebnis ein Schrecklichkeits-Effekt sein, bei dem die Stimme und die Mundbewegungen nicht übereinstimmen. Wenn Echtzeit-Informationen mit einem voreingestellten Skript in Konflikt stehen, kann der digitale Moderator während der Live-Übertragung wie gespalten wirken und widersprüchliche Äußerungen abgeben.

Die hohen Kommunikationskosten erhöhen den Rechenaufwand. Agenten müssen miteinander kommunizieren, um zu koordinieren. Aber übermäßige oder ungenaue Kommunikation kann nicht nur hohe Token-Kosten verursachen, sondern auch Fehler und Rauschen einführen. Eine Studie des ECON-Frameworks zeigt, dass das traditionelle Multi-Agenten-Debatten-Modell (MAD) auf mehrfachen expliziten Nachrichtenübertragungen basiert. Mehrere Agenten können möglicherweise doppelte Arbeit verrichten, was Rechenleistung verschwendet und widersprüchliche Ergebnisse hervorbringen kann. Daten zeigen, dass der Token-Verbrauch bei der Interaktion von Agenten etwa viermal so hoch ist wie bei einem normalen Chat, und bei einem Multi-Agentensystem sogar 15-mal so hoch. Dies bedeutet, dass die Multi-Agenten-Kollaboration im Wesentlichen immer noch auf dem Prinzip der Kraft durch Rechenleistung basiert. Aber aufgrund der Komplexität der Kommunikation ist dieser Prozess nicht kontrollierbar, und die Ergebnisse der Multi-Agenten-Kollaboration können von den Erwartungen abweichen.

Außer der Abnahme der Genauigkeit bei einigen Problemen und der Erhöhung der Kosten verbirgt die Aufgabenteilung in der Multi-Agenten-Kollaboration auch potenzielle Sicherheitslücken. Bei einem Einzel-Agenten ist es klar, wer den Fehler gemacht hat, und die Fehlersuche ist zielgerichtet. Aber in einem Multi-Agentensystem ist die endgültige falsche Entscheidung das Ergebnis der Interaktion mehrerer Agenten. Es ist schwierig, die Schuld einem einzelnen Mitglied zuzuschreiben. Es könnte sein, dass der Aufgabenaufteiler die Aufgabe falsch aufgeteilt hat, dass ein Spezialisten-Agent selbst Halluzinationen hat, oder dass die richtigen Ergebnisse mehrerer Agenten beim Zusammenfügen in Konflikt geraten und das Schiedsrichterverfahren fehlschlägt. Die Unklarheit der Verantwortung ermöglicht es Hackern möglicherweise, durch die Täuschung oder Infektion eines einzelnen Agenten das gesamte System zu manipulieren.

Kurz gesagt, die Multi-Agenten-Kollaboration hat sowohl Vorteile als auch Nachteile. Sie wandelt das Problem von „Wie kann man eine KI intelligenter machen“ in „Wie kann man ein intelligentes Team verwalten“.

Wie können wir diese starke Kraft beherrschen, damit sie ihre Macht entfalten kann, ohne in das Chaos zu geraten?

Wie kann die Multi-Agenten-Kollaboration überwinden?

Es ist leicht zu sehen, dass die Multi-Agenten-Kollaboration versucht, die Grenzen der Einzelintelligenz durch die Weisheit der Masse zu überwinden. Aber das Problem ist, dass es möglicherweise nicht einfacher ist, ein Team von hochqualifizierten Mitgliedern zu trainieren als einen Genie zu bilden. Weil Genies immer ihre eigenen Ideen haben, wird die Koordination und Kontrolle schwierig, wenn mehrere Genies zusammenkommen.

Warum gehen wir also diesen Weg, obwohl es so viele Schwierigkeiten gibt?

Weil die Grenzen höher sind.

Die Beschränkungen des Einzel-Agenten liegen in der Leistungsgrenze der Grundfähigkeiten, die nur durch die Skalierung des Modells gelöst werden kann. Die Fehler der Multi-Agenten-Kollaboration sind eher Probleme der Ingenieurskunst und Organisation, die durch ein besseres Systemdesign verwaltet und debuggt werden können.

Die akademische und die industrielle Welt können durch ein raffiniertes Systemdesign den Verlust an Genauigkeit, der durch die Multi-Agenten-Kollaboration verursacht wird, in einem kleinen Rahmen halten, um so die enorme Leistungssteigerung bei hochkomplexen Aufgaben zu erzielen. So kann das Multi-Agenten-Team sowohl intelligent als auch kontrollierbar sein.

Um das Problem der Eigenständigkeit der Multi-Agenten zu lösen, wird ein Koordinator-Agent in das System eingeführt, der das Ganze überwacht, anderen Agenten Aufgaben zuweist und bei Bedarf Konflikte schlichtet. Beispielsweise hat die Firma Anthropic in ihrem Multi-Agenten-Forschungssystem eine Architektur von „Hauptforscher - Sub-Agent“ eingesetzt: Ein Haupt-Agent erstellt einen Forschungsplan, und dann werden mehrere Sub-Agenten parallel erstellt, um verschiedene Suchaufgaben auszuführen. Am Ende fasst der Haupt-Agent die Ergebnisse zusammen. Diese hierarchische Koordination stellt sicher, dass das Team in Richtung eines gemeinsamen Ziels arbeitet und vermeidet die ungeordnete Konkurrenz zwischen den Sub-Agenten.

Um das Kommunikationsproblem zu lösen, können Techniker standardisierte Kommunikationsprotokolle einführen, um die Integrationskomplexität zu verringern. Die Multi-Agenten müssen effizient und zuverlässig Informationen austauschen können. Deshalb haben Forscher verschiedene Kommunikationsprotokolle und Schnittstellenstandards vorgeschlagen, wie beispielsweise das MCP-Protokoll und das A2A-Protokoll. Durch standardisierte Schnittstellen können verschiedene Agenten einfach miteinander verbunden werden, ähnlich wie Module in verschiedenen Programmiersprachen über APIs interagieren. GenFlow 2.0 ist kompatibel mit dem MCP-Protokoll und kann flexibel in die Ökosysteme von Drittanbietern integriert werden. Dies senkt die Einstiegshürde für die Entwicklung von Multi-Agenten-Anwendungen und fördert die Modularität und Komponierbarkeit. Entwickler können verschiedene Agenten wie Bausteine über standardisierte Protokolle verbinden, um zusammenzuarbeiten.

Um die potenziellen Sicherheitslücken in der Multi-Agenten-Kollaboration zu beheben, können Forscher leistungsfähigere automatisierte Fehlerattributions-Tools entwickeln, die wie ein Team-Psychologe schnell feststellen können, wo im System ein Fehler aufgetreten ist und welche Verantwortung ein Agent oder ein Schritt hat. Techniker können auch gegenläufige Trainingsprogramme und widerstandsfähige Designs einführen, damit das Multi-Agentensystem lernt, wie andere Knoten bei der Übernahme eines Teils des ausgefallenen Knotens die Fehlfunktion schnell kompensieren und die Gesamtkooperation aufrechterhalten können.

Natürlich müssen wir beachten, dass nicht alle Aufgaben für die Multi-Agenten-Kollaboration geeignet sind. Für Aufgaben mit einem einzigen Ziel und einem einfachen Ablauf kann der Einzel-Agent möglicherweise wirtschaftlicher und effizienter sein. Der Mehrwert des Multi-Agentensystems liegt eher in Unternehmensszenarien, bei denen die Aufgaben komplex sind, verschiedene Fachkenntnisse erforderlich sind oder eine hohe Fehlertoleranz und parallele Verarbeitung gefordert werden.

Insgesamt besteht der aktuelle technologische Trend darin, ein Gleichgewicht zwischen verteilter Agenten-Kollaboration und zentralisierter Verwaltung und Kontrolle zu finden. Einerseits müssen die Vorteile der verteilten Entscheidungsfindung mehrerer Agenten voll ausgeschöpft werden. Andererseits müssen die Verhaltensweisen der Multi-Agenten durch Koordinatoren, Protokolle und Governance-Regeln eingeschränkt und gelenkt werden. Erst wenn die Technologie immer reifer wird und die Zuverlässigkeit und Sicherheit schrittweise verbessert werden, wird die Multi-Agenten-Kollaboration immer nützlicher werden.

Dieser Artikel stammt aus dem WeChat-Account „Brain Intelligence“ (ID: unity007). Autor: Shan Hu. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。