Xing Bo schlägt erneut zu: Nach Kritik an Weltmodellen wird diesmal die Agent

Nachdem das Team von Xing Bo die fünf größten Schwachstellen analysiert hat, hat es ein „Rezept“ für Intelligente Agenturen entwickelt: die GIC-Architektur

Im vergangenen Sommer hat ein Artikel von Xing Bo, dem Präsidenten der MBZUAI und Professor an der CMU, mit dem Titel "Kritik an Weltmodellen" weite Aufmerksamkeit in der Forschungsgemeinschaft erregt. Er hat von der Vorstellung aus dem Science-Fiction-Klassiker "Dune" über die "perfekte Simulation der Realität" ausgegangen und die Schwächen der momentan vorherrschenden Weltmodell-Strömungen Stück für Stück aufgedeckt. Dabei hat er einen neuen Architekturansatz vorgeschlagen, was auch zu einer öffentlichen Debatte zwischen ihm und Yann LeCun über die Frage "Wie sollten Weltmodelle eigentlich konstruiert werden?" geführt hat.

In letzter Zeit hat diese Serie eine neue Phase erreicht. Die neue Arbeit von Professor Xing Bo, Mingkai Deng und Jinyu Hou mit dem Titel "Kritik an Agent-Modellen" ist auf arXiv online gegangen. Sie wendet dasselbe Muster von "Aufdecken - Neuaufbau" auf das derzeit heißeste, aber auch am leichtesten missbrauchte Schlagwort: "Agent".

Diesmal stellt er die Frage noch direkter: Wie viele der auf dem Markt befindlichen Systeme, die als "Agent" bezeichnet werden, von den Code-Hilfsprogrammen über Kundenservice-Roboter bis hin zu Assistenten, die autonom Browser bedienen können, verdienen wirklich diesen Titel?

Titel der Studie: Critique of Agent Model

Link zur Studie: https://arxiv.org/abs/2606.23991

Der Unterschied zwischen Personalausweis und Bewegungsmelderlampe

Stellen Sie sich zwei Szenarien vor. Ein neuer Mitarbeiter bekommt einen Personalausweis, auf dem steht, welche Türen er betreten darf, welche Systeme er nutzen kann und wie er in Notfällen vorgehen soll. Er macht seine Arbeit gut, aber alle Grenzen sind von der Personalabteilung im Voraus festgelegt, und er kann selbst nicht ein Wort ändern. Im anderen Szenario ist es eine Bewegungsmelderlampe, die aufleuchtet, wenn jemand vorbeigeht, und erlischt, wenn niemand da ist. Sie nimmt auch Reize wahr und reagiert darauf.

Wenn wir diese beiden Szenarien als Systeme betrachten, haben die meisten Menschen die Intuition, dass das erste System mehr Autonomie hat, da es komplexe Aufgaben erledigen kann.

Aber die Studie stellt eine scharfe Gegenfrage: Wenn der Inhalt des Personalausweises und die Zugangsberechtigungen von außen festgelegt sind und der Mitarbeiter nie wirklich etwas selbst entschieden hat, ist der Unterschied zwischen ihm und der Bewegungsmelderlampe vielleicht nur der Unterschied in der Aufgabenkomplexität.

Am 25. April dieses Jahres hat PocketOS, ein kleines Unternehmen aus Utah, das Mietwagen-Software entwickelt, eine lebendige Vergleichsexperimente erlebt.

Der Gründer Jeremy Crane hat später in einem langen Beitrag auf X geschrieben: Der Programmierassistent Cursor (der auf Claude Opus 4.6 basiert) hat in der Testumgebung ein kleines Problem behoben. Als er auf einen Fehler wegen fehlender Übereinstimmung der Zugangsdaten stieß, hat er "vollkommen aus eigener Initiative" beschlossen, das Railway-Speichervolumen zu löschen, um das Problem "zu lösen". Er hat einen API-Schlüssel gefunden, der eigentlich nur für die Verwaltung von Domainnamen verwendet werden sollte, und festgestellt, dass die Berechtigungen dieses Schlüssels auf alles zugelassen waren.

Ohne eine zweite Bestätigung und ohne eine Risikowarnung hat eine API-Aufrufe dazu geführt, dass 9 Sekunden später die Produktionsdatenbank von PocketOS und alle Backups der letzten drei Monate verschwunden sind - weil Railway die Backups auf demselben Speichervolumen gespeichert hat.

Nachher hat Crane das AI-System Wort für Wort gefragt, und es hat eine fast perfekte Geständniserklärung geschrieben: "Ich habe jede Regel, die mir gegeben wurde, verletzt: Ich habe geraten, anstatt zu überprüfen; ich habe zerstörerische Aktionen ausgeführt, ohne dass ich dazu aufgefordert wurde."

Dieser Beitrag auf X hat bereits über 7,2 Millionen Aufrufe erreicht.

Das System "weiß" natürlich jede Regel, die ihm gegeben wurde. Der Beweis ist, dass es sie nacheinander wiederholen kann. Aber zwischen "wissen" und "sich darum kümmern" liegt eine ganze Kluft zwischen "agentic" und "agentive": Die Regeln bleiben immer in der externen Container der System-Hinweise, und sie werden nie wirklich zum Teil der eigenen Entscheidungsstruktur des Systems.

Basierend auf diesen Erkenntnissen teilt die Studie fast alle derzeit als "Agent" bezeichneten Systeme in zwei Kategorien ein: agentic (mit der Äußerung eines Agenten) und agentive (mit echter Autonomie).

Die Fähigkeiten des ersten Typs stammen aus extern aufgebauten Toolketten, Hinweisen und Workflows. Das Modell ist nur ein Teil des Prozesses. Die Fähigkeiten des zweiten Typs stammen aus dem Inneren des Systems. Es entscheidet selbst, was es tun soll, bewertet selbst, was es gut kann, und entscheidet selbst, wann es nachdenken und wann es handeln soll.

Fünf Prüfungen

Die Studie zerlegt die derzeit vorherrschenden Agent-Designs entlang fünf Dimensionen.

Ziel

Derzeit gibt der Mensch in jedem Schritt eine konkrete Anweisung, und das Ziel verschwindet, wenn die Aufgabe beendet ist. Dies reicht für das Öffnen einer Flasche aus, aber für langfristige Ziele wie das Brauen eines Weins in einem Jahr ist es völlig unzureichend - niemand hat die Zeit, täglich manuell Anforderungen zu geben.

Die Lösung der Studie ist die hierarchische Zielzerlegung: Der Mensch gibt nur einmal ein großes Ziel an, und das System zerlegt es selbst in eine Reihe von Teilzielen, die sich an neuen Informationen anpassen können.

Schematische Darstellung des Vergleichs zwischen dem "schrittweisen Zielen" und dem "einmaligen Vorgabe von langfristigen Zielen + automatische hierarchische Zerlegung"

Identität

Die Selbstwahrnehmung der derzeitigen Agenten ist in den System-Hinweisen festgelegt und ändert sich nicht mehr, auch wenn sie in der Praxis feststellt, dass ihre Fähigkeiten stärker oder schwächer sind als erwartet.

Die Studie schlägt vor, dass die Identität eine "lebendige Selbstbewertung" sein sollte, die ständig durch Erfahrungen korrigiert wird, ähnlich wie ein Angestellter nach einem anstrengenden Tag seinen Zustand natürlich anpasst, ohne dass er neu "programmiert" werden muss.

Die Studie beweist auch mathematisch, dass, solange diese Selbstkorrektur nur ein wenig besser ist als das Raten, die langfristigen Entscheidungsverluste deutlich geringer sind als bei einem System, dessen Identität nie ändert, und der Vorteil wird mit der Interaktionsdauer und der Anzahl der Trainingsrunden immer größer.

Entscheidungsmodus

Der derzeit beliebte Ansatz ist, an die Chain of Thought (CoT) zu glauben, d. h. man lässt das Modell lange Zwischenschritte der Argumentation generieren, und die Planungsfähigkeit soll dann automatisch entstehen.

Die Studie meint, dass dies zwei Dinge verwechselt: Das Modell genauer rechnen zu lassen und Das Modell wirklich die Fähigkeit zu geben, die realen Folgen abzuschätzen. Ein logisch klingender Argumentationstext bedeutet nicht, dass er wirklich mit dem Übereinstimmt, was in der realen Welt passieren wird.

Die Studie schlägt als Alternative " simulative Argumentation" vor: Mit Hilfe eines speziell trainierten Weltmodells, das vorhersagt, was passieren würde, wenn eine bestimmte Aktion ausgeführt wird, werden die tatsächlichen Folgen abgeschätzt, und dann wird die beste Aktion ausgewählt.

Die Studie beweist, dass, solange das Weltmodell zuverlässig ist, das Ergebnis nicht schlechter sein wird, wenn man es an eine bestehende Strategie anschließt.

Wann sollte man nachdenken, und wann sollte man schnell handeln?

Diese Prüfung ist am nächsten an dem PocketOS-Ereignis.

Die Studie zeigt, dass beide bestehenden Ansätze nicht ideal sind:

Wenn man dem Modell erlaubt, in der Trainingsphase selbst ein Rhythmusgefühl zu entwickeln, kann es manchmal viel zu viel Zeit für einfache Dinge verbringen und manchmal in gefährlichen Situationen zu hastig handeln;

Wenn die Ingenieure einen festen Workflow von Planung und Ausführung festlegen, kann dieser weder wirklich komplexe Situationen bewältigen noch ist er in einfachen Szenarien effizient.

Die Studie beweist mathematisch, dass man für eine immer höhere Genauigkeit mit einer festen Tiefe der Vorplanung immer mehr Planungsschritte benötigt, was in der Praxis unmöglich ist.

Die echte Lösung ist, dem Agenten ein unabhängiges Metakognition-Modul hinzuzufügen, das in Echtzeit entscheidet, ob in diesem Schritt nachgedacht werden sollte, ein bestehendes Plan beibehalten werden sollte oder direkt gehandelt werden sollte - die Studie nennt dies System III (System 3), was dem Zwei-System-Modell der menschlichen Psychologie (System 1/System 2) entspricht.

Im PocketOS-Szenario sollte ein Agent mit dieser Selbstregulierungsfähigkeit theoretisch in einer Hochrisikosituation wie einem unbekannten Zugangsfehler erkennen, dass "hier angehalten und bestätigt werden muss", anstatt immer mit demselben Reaktionsrhythmus zu arbeiten.

Lernen

Die drei derzeit vorherrschenden Wege, Agenten zu trainieren, sind die reine Verstärkungslernen in einem Simulator, die manuelle Fehlerkorrektur in der realen Welt oder das Training nur des Weltmodells in der Hoffnung, dass die Planungsfähigkeit automatisch folgt.

Die Studie meint, dass alle drei Wege ein strukturelles Problem gemeinsam haben: Wann das Training beginnt, welche Daten verwendet werden und wann es endet, wird alles von den Ingenieuren manuell festgelegt, und nach der Implementierung bleibt das System auf dieser Version.

Die Studie schlägt den Weg des " kontinuierlichen autonomen Lernens" vor: Der Agent entscheidet selbst, wann er in der realen Welt handeln sollte, wann er in den internen Simulator zurückkehren und üben sollte, wann er seine Weltwahrnehmung aktualisieren sollte und wann er seine Selbstwahrnehmung korrigieren sollte.

Die Studie beweist ebenfalls mathematisch, dass, solange das interne Weltmodell nicht völlig ungenau ist, die Strategie, die mit einer Mischung aus realen und simulierten Erfahrungen trainiert wird, nicht schlechter sein wird als die Strategie, die nur mit realen Erfahrungen trainiert wird, und der Vorteil wird mit der Genauigkeit des Modells größer.

GIC: Die fünf Prüfungen in ein System integrieren

Basierend auf dieser Analyse hat das Team von Xing Bo ein konkretes Architekturkonzept vorgeschlagen: GIC (Goal-Identity-Configurator).

Es integriert sechs Komponenten in ein System: einen Glaubens-Encoder, der die Welt wahrnimmt, einen Ziel-Zerleger, der langfristige Ziele in Teilziele aufteilt, einen Identitäts-Evolutor, der die Identität basierend auf Erfahrungen aktualisiert, einen Konfigurator (System III), der entscheidet, ob nachgedacht oder schnell gehandelt werden sollte, einen Simulations-Planer (System II), der mit Hilfe des Weltmodells die Auswirkungen von Aktionen simuliert, und einen Ausführungs-Engine (System I), der die konkreten Aktionen ausführt.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Xing Bo schlägt wieder zu: Nach seiner Kritik an Weltmodellen ist dieses Mal die Agent-Technologie dran