Hier kommt der autoritativste Leitfaden zur Vermeidung von Fallstricken bei KI-Agenten. Je mehr Agenten es gibt, desto schneller sterben sie, und die Effizienz kann um bis zu 70% einbrechen.
Die autoritativste Implementierungsanleitung für Agenten ist da!
Kürzlich haben Google DeepMind und Google Research gemeinsam eine bahnbrechende Studie veröffentlicht: "Towards a Science of Scaling Agent Systems" (Hin zu einer Wissenschaft der Skalierung von Agentensystemen).
Diese Studie ist von sehr hohem Wert.
Denn sie durchbricht die größte Fehleinschätzung in der Künstlichen-Intelligenz-Szene: "Je mehr Agenten, desto besser". Das Forschungsunternehmen hat 180 Kontrollversuche mit fünf Agentenarchitekturen durchgeführt, die die drei großen Modelfamilien von OpenAI, Google und Anthropic abdecken. Am Ende ist ein sehr wichtiges Ergebnis hervorgegangen:
Das blinde Erhöhen der Anzahl von Agenten ist nicht nur teuer, sondern hilft auch überhaupt nicht bei den Ergebnissen.
Auf der Grundlage dieses Ergebnisses gibt es in der Studie auch drei innovative Erkenntnisse:
Erstens, Das "Größenparadoxon" der Agenten: Je komplexer die Aufgabe, desto mehr Agenten, desto schneller sterben sie aus. 3 - 4 Agenten sind der "goldene Schnitt" bei der aktuellen Technologie.
Zweitens, Es gibt abnehmende Grenznutzen bei Agenten. Wenn ein einzelner Agent bereits intelligent genug ist (> 45% Genauigkeit), ist es nicht nur nutzlos, sondern sogar negativ, wenn sie in Gruppen zusammenarbeiten.
Drittens, die Effektivität von Mehr-Agenten-Systemen hängt von den Aufgabenmerkmalen ab: Das Ergebnis wird nicht von der Anzahl der Agenten bestimmt, sondern von der Übereinstimmung zwischen Architektur und Aufgabenattributen.
Diese Studie ist nicht nur eine "Kaltwasserbeckenung", sondern auch eine Anleitung, um Fehler bei der Agentenarchitektur zu vermeiden. Lassen Sie mich es Ihnen Schritt für Schritt erklären.
Drei unumstößliche Regeln: Die physikalischen Gesetze, die Agenten beherrschen
Das Forschungsunternehmen hat durch ein Vorhersagemodell drei "versteckte Linien" extrahiert, die die Leistung von Agenten beherrschen:
Erstens, je mehr Werkzeuge, desto eher "stirbt" ein Mehr-Agenten-System aus.
Dies ist eine sehr gegenintuitiv erscheinende Entdeckung. Bisher dachten wir immer, je komplexer die Aufgabe (je mehr Werkzeuge), desto mehr Agenten werden benötigt?
Aber die Daten zeigen uns: Je mehr Werkzeuge, desto mehr behindert ein Mehr-Agenten-System.
Der Grund ist einfach: Mit jedem zusätzlichen Werkzeug erhöht sich die Kommunikationskosten zwischen den Agenten exponentiell.
Studien zeigen, dass wenn eine Aufgabe mehr als 16 Werkzeuge erfordert, ein Mehr-Agenten-System deutlich an Koordinationsproblemen leidet. Die Kosten für Kommunikation, Synchronisierung und die Erklärung der Aktionen der Agenten verschlingen die Kernschlussfolgerungsfähigkeit.
Das heißt, bei werkzeugintensiven Aufgaben ist oft ein starker Einzel-Agent (SAS) effizienter als ein Mehr-Agenten-Team.
Zweitens, je stärker die Fähigkeiten, desto weniger nützlich sind Mehr-Agenten-Systeme.
Diese Regel zeigt eine Schwelle auf: Wenn die Genauigkeit eines Einzel-Agenten über 45% liegt, führt das Hinzufügen von Agenten normalerweise zu negativen Erträgen.
Das ist das sogenannte "Baseline-Paradoxon". Wenn ein Einzel-Agent bereits stark genug ist, erhöht das Zwangszusammenarbeiten nur die Kosten für Kommunikation, Abstimmung und wiederholte Erklärungen.
Das ist wie bei einem ausgezeichneten, erfahrenen Ingenieur, der über 50% der Arbeit alleine erledigen kann. Wenn man ihm drei Praktikanten zuweist und Meetings plant, sinkt die Effizienz stattdessen.
Der wahre Wert von Mehr-Agenten-Systemen liegt darin, schwierige Aufgaben zu bewältigen, d. h. extrem komplexe Aufgaben, die ein Einzel-Agent überhaupt nicht bewältigen kann. Wenn ein Einzel-Agent bereits gut abschneidet, sollte man keine Mehr-Agenten-Systeme einführen, um die Leistung zu optimieren, da dies nicht lohnend ist.
Drittens, der Fehlverstärkungseffekt, der von der Architektur bestimmt wird.
Dies sind die am meisten überraschenden Daten. Die Fähigkeit, Fehler zu kontrollieren, variiert stark zwischen verschiedenen Kooperationsarchitekturen:
Beispielsweise wird in einem unabhängigen Mehr-Agenten-Modell jeder Agent für sich arbeitet, es gibt keine Fehlkorrekturmechanismen, und die Fehler werden 17,2-fach verstärkt. In einem zentralisierten Mehr-Agenten-Modell gibt es einen "Manager", der die Ergebnisse überprüft, und die Fehler werden nur 4,4-fach verstärkt.
Dies zeigt eine Tatsache:
Ungeprüfte parallele Verarbeitung ist äußerst anfällig. Beim Aufbau eines zuverlässigen Agentensystems muss ein "Verifikationsengpass" entworfen werden. Es muss ein Koordinator geben, der die Ausgaben der Unter-Agenten vor der Zusammenführung der Ergebnisse überprüft. Dies ist von entscheidender Bedeutung, um die Fehlerausbreitung zu stoppen.
Architektur vs. Aufgabe: Himmel und Hölle
Da Mehr-Agenten-Systeme kein Allheilmittel sind, in welchen Fällen können sie dann die Leistung verbessern?
Die Studie gibt auch ihre Antwort: Die Architektur muss natürlich zur Aufgabe passen.
Kurz gesagt, das bloße Anhäufen von Agenten ist nicht nur eine ineffektive Strategie, sondern kann in vielen Szenarien sogar die Leistung verschlechtern. Der eigentliche Schlüssel liegt in der "Übereinstimmung zwischen Architektur und Aufgabe".
Die Studie zeigt drei völlig unterschiedliche Schicksale für verschiedene Aufgaben auf:
Erstens, der "Multiplikatoreffekt" der Zusammenarbeit: Höchst aufteilbare Aufgaben.
Wenn eine große Aufgabe perfekt in voneinander unabhängige Teilaufgaben zerlegt werden kann, kann die Zusammenarbeit von Mehr-Agenten das Prinzip der "Teile und herrsche" anwenden, um die Fehlerrate durch parallele Verarbeitung und Informationsaustausch zu senken.
Beispiel: Finanzielle Analyse. Finanzanalysen haben von Natur aus strukturierte Merkmale. Beispielsweise kann die Analyse der Geschäftsberichte eines Unternehmens in "Einnahmestromanalyse", "Kostenstrukturanalyse" und "Vergleich mit Marktrivalen" zerlegt werden.
Im Vergleich zu einem Einzel-Agent bringt eine zentralisierte Kooperationsarchitektur eine Leistungserhöhung von bis zu +80,9%. Selbst die dezentrale und die hybride Architektur bringen eine Erhöhung von +74,5% bzw. +73,2%.
Zweitens, der "Ballast-Effekt" der Zusammenarbeit: Aufgaben mit strenger Reihenfolgeabhängigkeit.
Wenn eine Aufgabe wie ein "Staffelrennen" oder "Bausteinbau" ist, bei der jeder Schritt streng von dem vorherigen Zustand abhängt, unterbricht das Hinzufügen von Agenten nur die Kohärenz der Schlussfolgerung und führt zu "einem Fehler, der alle anderen Fehler nach sich zieht".
Alle Mehr-Agenten-Architekturen haben in dieser Aufgabe einen Rückschlag erlitten. Die Leistungseinbußen liegen zwischen -39% und -70%. Dabei hat das unabhängige Mehr-Agenten-Modell die schlechteste Leistung mit einem Einbruch von 70%.
Beispiel: Spielplanung. In einer Umgebung wie Minecraft muss man zunächst Holz sammeln, um einen Stock zu herstellen, und um eine Eisenhacke herzustellen, muss man zunächst einen Stock herstellen. Jede Aktion ändert den Zustand des Inventars, und alle folgenden Aktionen müssen auf dem neuesten und genauen Zustand basieren.
Bei dieser langfristigen Schlussfolgerung wird die Kommunikation zwischen Agenten zu einer Belastung. Da die Anzahl der Tokens begrenzt ist, verdrängt der für die Kommunikation verbrauchte Ressourcenbedarf die Ressourcen für die Kernschlussfolgerung.
Was noch schlimmer ist, ist, dass Informationen beim Übertragen zwischen verschiedenen Agenten "verlustbehaftet komprimiert" werden, was zu einer Fragmentierung des Kontexts führt und die Strenge der langfristigen Logik nicht aufrechterhalten kann.
Drittens, das "Doppelsäbel" der Zusammenarbeit: Aufgaben mit viel Exploration und wenig Ausführung zeigen das subtilste Verhalten.
Einige Aufgaben sind weder reine logische Ketten noch vollständig aufteilbar, sondern haben sowohl "Explorations-" als auch "Ausführungs"-Attribute. Repräsentative Beispiele sind das dynamische Webbrowsing (BrowseComp-Plus) und der geschäftliche Arbeitsablauf (Workbench).
Die Studie zeigt, dass in diesen Aufgaben die Leistung von Mehr-Agenten stärker von der Architekturgestaltung abhängt.
Bei der Aufgabe des dynamischen Webbrowsings gibt es ein polarisiertes Ergebnis. Das unabhängige Modell hat eine schlechte Leistung (-35%), aber das dezentrale Modell hat eine Leistungserhöhung von +9,2%.
Der Grund liegt darin, dass das Web-Suchen eine Umgebungen mit hoher Entropie ist, die eine breite Exploration erfordert. Die dezentrale Architektur ermöglicht es den Agenten, direkt miteinander zu diskutieren und Informationen auszutauschen. Diese Art der "Brainstorming"-Zusammenarbeit hilft, in einem Meer von unklaren Informationen den richtigen Weg zu finden, aber die Verbesserung ist nur moderat.
Beim geschäftlichen Arbeitsablauf hat die Einwirkung von Mehr-Agenten nur einen minimalen Einfluss, der zwischen -1,2% und +5,7% liegt.
Diese Art von Aufgaben beinhaltet normalerweise einen festen Prozess der Werkzeugaufrufe (z. B. E-Mailabfrage, Termineintragung). Bei diesen Aufgaben mit hoher Bestimmtheit kann ein Einzel-Agent bereits gut abschneiden (hohe Baseline-Score). Die Koordinationskosten (Overhead) für die Einführung von Mehr-Agenten gleichen im Wesentlichen die erzielten Vorteile aus.
Die "Organisationsform" von Agenten: Die Vorzüge und Kosten von vier Architekturen
Wenn man sich Agentensysteme genauer ansieht, gibt es eigentlich vier Hauptarchitekturen. Ihr Unterschied liegt nicht darin, "welche ist fortschrittlicher", sondern darin, für welche Aufgaben sie geeignet sind.
Die grundlegendste ist das Einzel-Agenten-System. Es ist wie ein Alleskönner: Wahrnehmung, Schlussfolgerung, Planung und Ausführung erfolgen alle in seinem eigenen "Kopf".
Es hat alle Kontextinformationen und es gibt keine Information, die beim Übertragen komprimiert oder zerlegt wird. Dies macht es bei der Bearbeitung von langfristigen, aufeinander aufbauenden Aufgaben am stabilsten und ressourcenschonendsten - es gibt keine Kommunikationskosten und keine "Kooperationssteuer".
Der Nachteil ist auch offensichtlich: Bei besonders großen oder komplexen Aufgaben kann es das Problem nicht wie ein Team aufteilen und wird leicht von lokalen Details festgehalten.
Das unabhängige Mehr-Agenten-System ist die einfachste "Mehrspieler-Modus". Jeder Agent arbeitet für sich, ohne miteinander zu kommunizieren, und am Ende werden die Ergebnisse einfach per Abstimmung zusammengefasst. Der größte Vorteil ist die Schnelligkeit, da es keine Kommunikationsverzögerungen gibt.
Aber da es keinen gegenseitigen Überprüfungsprozess gibt, gehen Fehler eines Agenten direkt in die endgültige Antwort ein, es gibt keine Fehlerkorrekturmechanismen.
Das zentrale Mehr-Agenten-System hat zusätzlich einen "Koordinator".
Der Koordinator ist für die Aufteilung der Aufgaben, die Zuweisung an die Unter-Agenten und die Rückgewinnung und Überprüfung der Ergebnisse verantwortlich. Es filtert wie ein Qualitätskontrolleur die Fehler aus und macht das System bei strukturierten Aufgaben robuster. Aber der Koordinator wird zum Engpass, da alle Kommunikation über ihn gehen muss, und die Kooperationskosten steigen damit.
Das dezentrale Mehr-Agenten-System geht in die andere Richtung: Alle Agenten können direkt miteinander kommunizieren, miteinander diskutieren und Informationen austauschen. Diese Struktur eignet sich für Aufgaben mit hoher Explorationsintensität und unklaren Informationen, um das Risiko von Halluzinationen durch eine hohe Redundanz und wiederholte Bestätigung zu senken.
Aber die Kosten sind extrem hoch - mit der Zunahme der Anzahl von Agenten wächst der Kommunikationsaufwand nicht linear, sondern exponentiell, und der Verbrauch von Tokens ist sehr hoch.
Die hybride Architektur versucht, beide Modelle zu kombinieren: Sie behält die Ordnung des zentralisierten Modells bei und ermöglicht gleichzeitig die horizontale Kommunikation zwischen den unteren Agenten.
Theoretisch kann es den komplexesten Aufgaben angepasst werden. Aber in der Realität steigen mit zunehmender Komplexität der Struktur die Kooperationskosten, und es lohnt sich oft nicht - je "intelligenter" das System, desto eher wird es von seiner eigenen Komplexität geschwächt.
Eine wirtschaftliche Analyse
Außer in Bezug auf die Leistung hat diese Studie auch eine grausame Analyse von Mehr-Agenten-Systemen aus wirtschaftlicher Perspektive durchgeführt.
Das Forschungsunternehmen hat zwei Kernfindungen:
Erstens, der plötzliche Einbruch der Effizienz: Mehr-Agenten-Systeme scheitern völlig bei der Token-Nutzungseffizienz.
Betrachtet man nur die endgültige Genauigkeit, können Mehr-Agenten-Systeme manchmal einem Einzel-Agenten-System überlegen sein. Aber wenn man es in die für das Geschäft am wichtigsten gewertete Metrik umrechnet - wie viele Erfolge kann man mit 1000 Tokens erzielen?
Das Ergebnis ist erbärmlich:
Einzel-Agent: Mit 1000 Tokens kann man 67,7 Erfolge erzielen.
Zentralisierte Architektur: Die Effizienz sinkt auf 21,5 (nur 1/3 der Effizienz eines Einzel-Agenten).
Hybride Architektur: Die Effizienz bricht auf 13,6 ein (nur 1/5 der Effizienz eines Einzel-Agenten).
Das bedeutet, wenn die Aufgabe nicht von sehr hohem Wert ist (z. B. Finanzentscheidungen), haben Mehr-Agenten-Systeme fast keine wirtschaftliche Machbarkeit.
Zweitens, die "quadratische Expansion" der Dialogrunden: Zusammenarbeit ist keine Addition, sondern eine Multiplikation.
Eine andere stark unterschätzte Kostenfaktor ist das explosive Wachstum der Anzahl der Dialogrunden.
Die Studie zeigt, dass wenn die Anzahl von Agenten (n) zunimmt, wächst die Anzahl der Runden nicht linear (n), sondern fast quadratisch (n²).
Die Daten sind sehr anschaulich:
Einzel-Agent: Im Durchschnitt benötigt es nur 7,2 Runden, um die Aufgabe zu erfüllen.
Zentralisiertes Mehr-Agenten-System: Es werden 27,7 Runden benötigt.
Hybride Architektur: Die