Drei Aufsätze: Deutlich beschriebene Schwierigkeiten im ersten Jahr der Agenten

Unabhängig von der Definition des Kapitalmarktes ist das eigentliche Jahr der Agenten noch nicht gekommen.

2025 wird von den Kapitalmärkten als das „Jahr Null von Agenten“ definiert.

Mehrere Agenten-Anwendungen wie Manus, Lovart und Fellou haben viel Aufmerksamkeit erregt. Sie zeichnen sich durch ein hohes Maß an Automatisierung und eine starke Generalisierungsfähigkeit aus. Xiao Hongs Satz „More Intelligence, Less Structure“ (Mehr Intelligenz, weniger Struktur) hat sich in den Köpfen der Menschen festgesetzt.

Die meisten dieser Star-Unternehmen setzen Architekturen mit mehreren Agenten ein. Die Erledigung von Aufgaben erfordert häufig mehrfache Tool-Aufrufe, was in der Regel lange Wartezeiten mit sich bringt. Unter ihrem Einfluss scheint es derzeit in der Agenten-Branche zwei unumstößliche Regeln zu geben: Erstens, die Fähigkeiten eines einzelnen Agenten sind begrenzt, aber die Zusammenarbeit mehrerer Agenten kann komplexe Probleme lösen. Zweitens, wenn das Budget knapp ist, erhöht man die Anzahl der Token und Tool-Aufrufe, und die Leistung wird sich von selbst verbessern.

Eine Forschungsstudie namens „Measuring Agents in Production“, die das UC Berkeley im Dezember veröffentlichte, zeigt uns jedoch ein Paralleluniversum, das der Erzählung der Star-Unternehmen diametral entgegengesetzt ist.

Das Berkeley-Team hat 306 Fachkräfte vor Ort und 20 ausführliche Fallstudien (einschließlich großer Banken wie Intesa Sanpaolo) eingehend untersucht. Um Verzerrungen zu vermeiden, haben die Autoren in der Studie bewusst alle Projekte herausgefiltert, die noch in der Planungsphase sind oder sich im Demo-Stadium befinden. Sie haben sich stattdessen nur auf Systeme konzentriert, die bereits in Betrieb sind und tatsächlichen Wert schaffen.

Die Ergebnisse zeigen, dass die echten Daten aus der Produktionsumgebung viel konservativer sind als die aus dem Labor. Man könnte sogar sagen, dass es sich um „Feiglinge“ handelt.

68 % der produktionsreifen Agenten sind auf maximal 10 Ausführungsschritte beschränkt. Nur 16,7 % werden bis zu mehreren Dutzend Schritten zugelassen, und nur 6,7 % haben keine Beschränkungen.

Um die Tool-Nutzung zu vereinfachen und das Risiko zu verringern, sind Unternehmen nicht bereit, Agenten direkt auf die API der Produktionsumgebung zugreifen zu lassen. Stattdessen wird normalerweise eine Abstraktionsschicht (Wrapper APIs) zwischen dem Agenten und der echten Umgebung erstellt. Wenn beispielsweise drei Schnittstellen aufgerufen werden müssen, um Informationen über einen Benutzer zu erhalten, werden diese von den Ingenieuren zu einer einzigen großen Schnittstelle zusammengefasst und dem Agenten zur Verfügung gestellt. Ein Schritt statt drei.

80 % der ausführlichen Interviews haben eine „strukturierte Steuerung“ eingesetzt. Dies bedeutet, dass der Aufgabenablauf von Menschen geplant wird, und die KI füllt einfach die vorgegebenen Felder aus.

Die Daten aus der Studie zeigen, dass bei 12 % der implementierten Systeme die Prompt-Länge über 10.000 Tokens liegt. Alle Agenten laufen in einem Pipeline-System, in dem die System-Prompts sehr fest vorgegeben sind und manchmal Tausende von Wörtern umfassen.

Die derzeitigen Erfolgsfälle sind im Wesentlichen „ungeduldige Praktikanten mit Leseverständnis“, die in einen strengen SOP-Prozess eingeschoben werden. Im Vergleich zu fest vorgegebenen SaaS-Lösungen können sie unklare Absichten verstehen und haben eine gewisse Flexibilität, aber das ist auch schon alles.

Warum ist die Realität so hartnäckig?

DeepMind hat im November und Dezember zwei Studien veröffentlicht, die eine perfekte pathologische Analyse für die düsteren Zustände in der Berkeley-Studie liefern. Denn sie widerlegen direkt zwei zentrale Annahmen der Agenten-Community.

Mit Experimenten und Daten haben sie bewiesen, dass die Zeit der magischen Selbstentfaltung der Modelle noch nicht gekommen ist. Wir befinden uns immer noch in der Zeit der Hardcoding, der starken Kontrolle und des Fließbandproduktions.

01 Der Zusammenbruch der Sprachturm, More Agents ≠ Better Performance

DeepMinds erste Studie hat mit 180 kontrollierten Experimenten das Mythos von der „stärkeren Leistung mehrerer Agenten“ zerstört.

In den letzten Jahren haben Architekten geträumt: Wenn ein Modell nicht intelligent genug ist, dann nehmen wir einfach mehrere. Lassen wir GPT - 5 als Produktmanager fungieren, Claude - Teams als Programmierer und Gemini - Teams als Tester. Wir können ein virtuelles Team wie in einem Unternehmen aufbauen, mit einem Dutzend Doktor - AI, die mich bedienen. Was für ein Problem könnte damit nicht gelöst werden?

Aber DeepMinds Studie „Towards a Science of Scaling Agent Systems“ hat gezeigt, dass dies nur eine Illusion ist. Sie haben das vermutlich größte Experiment in der Geschichte der Agenten durchgeführt.

Das Experiment hat fünf gängige Agenten - Architekturen getestet, darunter:

● Einzel - Agenten - System (SAS), bei dem ein einzelner Agent alle Aufgaben erledigt (z. B. die ReAct - Architektur)

● Unabhängige Mehr - Agenten - Architektur (eine Gruppe von Agenten arbeitet parallel an derselben Aufgabe, die Ergebnisse werden anschließend zusammengeführt, ohne Zwischenkommunikation, in der Regel um Halluzinationen zu vermeiden)

● Dezentrale Mehr - Agenten - Architektur (die Agenten diskutieren und verhandeln über Protokolle wie A2A und treffen schließlich eine gemeinsame Entscheidung)

● Zentrale Agenten - Architektur (ein leitender Agent verteilt die Aufgaben und überprüft die Ergebnisse)

● Gemischte Agenten - Architektur (in der Regel eine Mischung aus zentraler und dezentraler Architektur, bei der die ausführenden Agenten kommunizieren und auch von einem Vorgesetzten Aufgaben erhalten)

Für die Tests wurden die führenden Produkte von OpenAI, Google und Anthropic ausgewählt. Am Ende wurden die verschiedenen Kombinationen mit vier gängigen Benchmark - Tests für Agenten bewertet, darunter Finanzanalyse (Finance - Agent), Webbrowsing (BrowseComp - Plus), Spielplanung (PlanCraft) und Workflow (Workbench).

Diese verschiedenen Faktoren haben mehr als 180 Kombinationen ergeben. Durch diese wissenschaftliche, umfassende Vergleichsstudie haben sie einige grundlegende Regeln für das Design von Agenten entdeckt.

1. Das Tool - Kollaborations - Gewicht

In offenen und komplexen Aufgaben führt eine bloße Erhöhung der Anzahl der Agenten nur zu einer „Dummheit“ des Systems.

In einer PlanCraft - Umgebung ähnlich Minecraft hat die Einführung von Mehr - Agenten - Kollaboration nicht nur die Leistung nicht verbessert, sondern sogar stark verschlechtert. Beispielsweise hat die Leistung des Anthropic - Modells nach der Einführung der Kollaboration um 35,0 % gesunken. Der Grund liegt in der „Koordinationssteuer“. Jeder Agent muss die Schnittstellen verstehen, den Kontext pflegen und die Ergebnisse verarbeiten. Wenn die Anzahl der Tools einen Schwellenwert überschreitet, übersteigt die Kosten der Informationsübertragung die Vorteile der parallelen Verarbeitung.

Die Token werden für das Lesen der Anleitungen und das Führen von Meetings verbraucht, und es bleibt keine Zeit für die Arbeit.

2. Die Sättigungseffekt der Fähigkeit

Wenn die Genauigkeit eines einzelnen Agenten über 45 % liegt, bringt die Einführung von Mehr - Agenten - Kollaboration oft abnehmende oder sogar negative Renditen.

Die Logik dahinter ist einfach: Bei einer Aufgabe wie 1+1 = 2 kann ein Agent die richtige Antwort geben, und es macht keinen Unterschied, wenn drei Agenten einen Tag lang darüber diskutieren.

3. Die Fehlerverstärkungstopologie

Dies könnte der Schlüssel sein, warum Mehr - Agenten - Systeme nicht nur teuer sind, sondern auch möglicherweise schlechtere Ergebnisse liefern, nachdem die Fähigkeitssättigung erreicht ist.

Intuitiv denken wir, dass bei drei Agenten die Abstimmung über die Antwort Fehler korrigieren und die Fehlerrate senken sollte. Aber laut der Studie wird in einer unabhängigen Mehr - Agenten - Architektur der Fehler eher verstärkt.

Die Studie quantifiziert dieses Phänomen mit dem Fehlerverstärkungsfaktor. In einer unabhängigen Mehr - Agenten - Architektur beträgt dieser Faktor 17,2. Das bedeutet, dass wenn die Fehlerrate eines einzelnen Agenten 5 % beträgt, die Fehlerrate des unabhängigen Mehr - Agenten - Systems bis zu 86 % (5 % × 17,2) betragen kann.

Die Logik dahinter ist auch einfach. Da es keine Kreuzvalidierung gibt, zieht jeder Agent seine eigenen Schlussfolgerungen, und der Fehler wird in seinem eigenen Kontext verstärkt. Die Abstimmung ist nur eine Zusammenstellung von drei falschen Antworten.

Das ist der „Babel - Turm - Effekt“. Drei Stümper können nicht zusammen einen Genie bilden.

Auf der Grundlage dieser drei Beobachtungen hat DeepMind schließlich ein Misch - Effekt - Modell entwickelt.

Übersetzt lautet die Formel ungefähr wie folgt:

Endgültige Leistung = (Einzelintelligenz + Stärke in Gruppen) - (Chaos in Gruppen + Kommunikationsrauschen + kognitive Belastung der Tools)

Wenn die Abzüge der letzten drei Faktoren die Vorteile der Mehrzahl an Agenten übersteigen, wird das Mehr - Agenten - System versagen.

In der Studie kann diese Formel mit einer Genauigkeit von 87 % vorhersagen, welche Agenten - Architektur für eine bestimmte Aufgabe am besten geeignet ist, basierend auf den Eigenschaften der Aufgabe (z. B. Anzahl der Tools, Zerlegbarkeit) und der Fähigkeit des Modells.

In Aufgaben unterschiedlicher Komplexität unterscheiden sich die Leistungen der verschiedenen Mehr - Agenten - Architekturen stark. Beispielsweise hat die PlanCraft - Umgebung alle Architekturen durchfallen lassen. Bei der Netzwerkrecherche sind die Vorteile nicht deutlich, und der Fehler kann sogar verstärkt werden. In der alltäglichen Büroarbeit ist nur die dezentrale Architektur etwas stärker, alle anderen Architekturen sind schlechter als ein einzelner Agent.

Es ist jedoch bemerkenswert, dass in Finanzanalysen Mehr - Agenten - Systeme eine deutliche Verbesserung bringen, insbesondere die zentrale Agenten - Architektur, die die Leistung um 81 % verbessern kann.

Das liegt daran, dass die Finanzanalyseaufgaben sehr klar definiert sind und der SOP - Prozess sehr eindeutig ist. Beispielsweise kann eine Analyseaufgabe in die Schritte aufgeteilt werden: Lesen des Jahresberichts -> Extrahieren der Daten -> Berechnen der Verhältnisse -> Erstellen einer Zusammenfassung. Jeder Agent muss nur in den vorgegebenen Rahmen füllen und keine komplexen kreativen Planungen vornehmen. In diesem Fall wird die zentrale Mehr - Agenten - Architektur sehr effektiv.

Dies zeigt, dass selbst die stärksten LLM derzeit noch keine Fähigkeit zur Selbstorganisation und Arbeitsteilung entwickelt haben. Sie können nur einfache parallele Teilung (wie in der Finanzanalyse) oder fehlertolerante Arbeit auf der Grundlage von Konsens (wie in der Mehrfachsuche) durchführen.

Bei einer zentralen Architektur mit einem Koordinator ist die Intelligenzgrenze die Fähigkeit des Leiters, den Kontext zu verarbeiten. Wenn keine manuelle, hardcodierte Tool - Stratifizierung durchgeführt wird (d. h. die Tools werden in Gruppen aufgeteilt, und jeder Leiter sieht nur eine Gruppe), kann ein einzelner Leiter nicht mit einer komplexen Tool - Bibliothek umgehen und keine geeigneten Anweisungen und Aufgabenaufteilungen erteilen.

In einer solchen Situation, um die ursprüngliche Vision eines Mehr - Agenten - Systems für komplexe, langfristige Aufgaben zu verwirklichen, ist die manuelle Planung der Aufgabenaufteilung in SOPs immer noch der einzige Weg.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Drei Aufsätze haben die Schwierigkeiten im ersten Jahr der Agenten deutlich beschrieben.

01

Der Zusammenbruch der Sprachturm, More Agents ≠ Better Performance