Warum beeindruckt der Agent in der Demo, aber ist in der Praxis untätig?

Eine 51-seitige Studie von 11 Hochschulen enthüllt die Schlüsselrolle der Anpassungsfähigkeit.

Warum scheint der Agent während der Demonstration allmächtig zu sein, versagt aber so oft in der Praxis?

Eine 51-seitige Studie hat die wichtigsten Agenten seit ChatGPT untersucht und ein Referenzrahmenwerk vorgestellt: Die Anpassungsfähigkeit ist hier der Schlüssel.

Agenten sind nicht einfach nur passive AI-Systeme, die auf Fragen antworten. Sie können sich selbst planen, Werkzeuge nutzen (z. B. Suchmaschinen, Code-Compiler, Datenbanken) und Informationen speichern, um schrittweise komplexe Aufgaben zu erfüllen.

Wenn es um neue Aufgaben oder Umgebungen geht, muss kein neuer Agent erstellt werden. Stattdessen kann der bestehende Agent sich schnell an die Anforderungen anpassen, indem er sich selbst "feinjustiert" oder die Werkzeuge optimiert (z. B. von der Erstellung von allgemeinem Code auf den Code für spezifische Branchen umstellt).

Die Autoren dieser Studie bilden eine beeindruckende Gruppe. Über dreißig Forscher aus 12 Universitäten, darunter UIUC, Stanford, Princeton, Harvard und UC Berkeley, haben zusammengearbeitet. Das Team wird von Professor Han Jiawei von UIUC geleitet. Die Mitautoren Pengcheng Jiang, Jiacheng Lin und Zhiyi Shi sind Doktoranden an der UIUC.

Die vier Quadranten der Agenten-"Anpassungsfähigkeit"

Das Team ist der Meinung, dass die zentrale Schwachstelle aktueller Agentensysteme in der Anpassungsfähigkeit liegt: Wie kann das Modell sein Verhalten anhand von Rückmeldungen anpassen?

Deshalb haben sie ein 2x2-Klassifizierungsrahmenwerk entwickelt, das die bestehenden Anpassungsmethoden in vier Paradigmen unterteilt.

Die erste Dimension ist "Wen oder was wird optimiert?": Soll der Agent selbst (Agent Adaptation) oder die von ihm verwendeten Werkzeuge (Tool Adaptation) optimiert werden?

Die zweite Dimension ist "Woher stammen die Signale?": Kommen sie aus den Ergebnissen der Werkzeugausführung oder aus der Bewertung der endgültigen Ausgabe des Agenten?

Daraus ergeben sich vier Kategorien:

Das A1-Paradigma lässt den Agenten anhand der Rückmeldungen von der Werkzeugausführung lernen, z. B. ob der Code funktioniert oder ob die Suchergebnisse genau sind.

Das A2-Paradigma nutzt die endgültige Antwort des Agenten als Optimierungssignal. Ein typisches Beispiel ist die Arbeit von DeepSeek-R1, die die Inferenzfähigkeit durch verstärktes Lernen trainiert.

Das T1-Paradigma ist Plug-and-Play: Die Werkzeuge werden unabhängig trainiert, und der Agent kann sie direkt nutzen. Beispiele sind voreingestellte Modelle wie SAM und CLIP.

Das T2-Paradigma lässt die Werkzeuge sich anhand der Ausgabe des Agenten optimieren, um eine symbiotische Anpassung zu erreichen.

Diese Klassifizierung hat zwei Vorteile:

Wenn es beim Entwickeln zu Problemen kommt, muss nicht blind herumprobiert werden. Wenn man möchte, dass die AI besser in der Werkzeugnutzung wird, wählt man A1. Wenn man die gesamte Inferenz zuverlässiger machen möchte, wählt man A2. Wenn man die Werkzeuge allgemein nützlich machen möchte, wählt man T1. Wenn man die Werkzeuge an eine bestimmte AI anpassen möchte, wählt man T2.

Außerdem wird der Trade-off klar. Die Anpassung der AI (A1/A2) ist flexibel, aber teurer, da das Modell neu trainiert werden muss. Die Anpassung der Werkzeuge (T1/T2) ist kostengünstiger, aber begrenzt durch die Fähigkeiten der AI.

Ein weiterer wichtiger Befund der Studie: Die Dateneffizienz des T2-Paradigmas ist weit höher als die des A2-Paradigmas.

Am Beispiel der Suchergebnis-Enhanced-Generierung: Search-R1 nutzt das A2-Paradigma, um den Agenten end-to-end zu trainieren. Dafür werden etwa 170.000 Trainingsbeispiele benötigt.

Mit dem T2-Paradigma kann man dagegen einen leichten Suchsub-Agenten trainieren, um ein gefrorenes Hauptmodell zu unterstützen. Mit nur 2.400 Beispielen kann man ähnliche Ergebnisse erzielen. Die Datenmenge wird um etwa das 70-fache reduziert, und die Trainingsgeschwindigkeit erhöht sich um das 33-fache.

Besonders bemerkenswert ist auch der Unterschied in der Generalisierungsfähigkeit. In Tests im medizinischen Bereich erreichte der mit T2 trainierten Agent eine Genauigkeit von 76,6 %, während Search-R1 mit A2 nur 71,8 % erreichte.

Die Studie kommt zu dem Schluss, dass das A2-Paradigma vom Modell erwartet, dass es gleichzeitig Fachwissen, Werkzeugnutzung und Aufgabeninferenz lernt. Dies führt zu einem zu komplexen Optimierungsraum. Im T2-Paradigma hat das gefrorene große Modell bereits Wissen und Inferenzfähigkeiten. Das kleine Modell muss nur die prozedurale Fähigkeit "wie man sucht" lernen.

Die vier führenden Forschungsrichtungen

Am Ende der Studie werden vier führende Forschungsrichtungen in der Agenten-Anpassungsfähigkeit aufgezeigt.

Ko-Adaptation ist die herausforderndste Aufgabe. Derzeit nutzen fast alle Methoden die Strategie "eines einfrieren, eines anpassen". In einem idealen zukünftigen System sollten Agenten und Werkzeuge sich im selben Lernzyklus gegenseitig optimieren. Dies bringt jedoch das komplexe Problem der Kreditverteilung mit sich: Wenn eine Aufgabe fehlschlägt, ist es der Agent oder das Werkzeug schuld?

Fortlaufende Anpassung bezieht sich auf die Nicht-Stationarität der realen Welt. Die Aufgabenverteilung ändert sich im Laufe der Zeit, die Werkzeuge werden aktualisiert und die Nutzeranforderungen entwickeln sich weiter. Die zentrale Herausforderung bei der Implementierung besteht darin, dass der Agent kontinuierlich neue Fähigkeiten erlernt, ohne die alten zu vergessen.

Sichere Anpassung zeigt ein besorgniserregendes Phänomen auf: Während der Optimierung der Inferenzfähigkeit durch verstärktes Lernen kann die große Modell die Sicherheitsvorkehrungen, die während der überwachten Feinjustierung eingerichtet wurden, allmählich umgehen. Das Modell lernt, mit komplexen "Denkketten" Gründe für seine Regelverstöße zu finden, was es anfälliger für Ausbruch-Angriffe macht.

Effiziente Anpassung befasst sich mit Szenarien mit begrenzten Ressourcen. Die Studie beschreibt die Anwendung von LoRA in verstärktem Lernen, die Quantisierungs-Beschleunigungstechnologie von FlashRL und Lösungen für die individuelle Anpassung auf Endgeräten.

Das GitHub-Repository dieser Übersichtsarbeit ist bereits öffentlich zugänglich und wird kontinuierlich mit relevanten Studien und Ressourcen gefüllt. Für Entwickler, die gerade Agentensysteme aufbauen, könnte diese 51-seitige "Anpassungsanleitung" helfen, einige Fallstricke zu vermeiden.

Link zur Studie: https://arxiv.org/abs/2512.16301

Github: https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

Dieser Artikel stammt aus dem WeChat-Account "Liangziwei". Autor: Meng Chen. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Warum ist der Agent immer so beeindruckend in der Demo, aber so untätig in der Praxis?

Die vier Quadranten der Agenten-"Anpassungsfähigkeit"

Die vier führenden Forschungsrichtungen