Vollständig ReAct besiegen: Stanfords neues Agenten - Inferenzframework bringt 112,5 % Leistungssteigerung

Stanford und MIT haben das ReCAP-Inferenzframework vorgestellt, dessen Leistung das ReAct vollständig übertrifft.

Ein Forschungsteam aus Stanford und MIT hat ein neues KI - Agenten - Inferenzframework namens ReCAP vorgestellt, das in Langkontextaufgaben das bestehende Mainstream - Framework ReAct umfassend übertrifft und eine deutliche Leistungssteigerung zeigt. ReCAP löst durch seine einzigartige rekursive Baumstruktur und drei Mechanismen Probleme wie Zielabweichung, Kontextunterbrechung und Kostenexplosion, die bei großen Sprachmodellen in komplexen Aufgaben häufig auftreten. In mehreren Benchmark - Tests hat ReCAP signifikant bessere Ergebnisse erzielt und seine starke Universalität und Stabilität gezeigt. Obwohl die Rechenkosten etwas höher sind, macht seine Leistung in kritischen Aufgaben es zu einem vielversprechenden neuen generischen Inferenzarchitektur der nächsten Generation.

Seit der Einführung des ReAct - Frameworks im Jahr 2022 hat das Gebiet der KI - Agenten - Inferenz eine Epoche des Wettbewerbs zwischen vielen Ansätzen begonnen, und verschiedene komplexe Architekturen sind wie Pilze nach dem Regen aufgetaucht.

Allerdings waren die meisten dieser Architekturen kurzlebig. Aufgrund ihrer komplexen Struktur mussten die Beispiele bei einem Wechsel des Bewertungsmaßstabs stark geändert werden, und ihre Leistung war weit weniger stabil und universell wie die von ReAct. Dies hat ReAct in den letzten drei Jahren zum faktischen Mainstream und Maßstab in diesem Gebiet gemacht.

Aber können wir es nicht besser machen?

Angesichts der hartnäckigen Schwäche der Kurzzeitgedächtnis von großen Modellen in Langkontextaufgaben, bei denen sie schon nach wenigen Schritten vergessen, was sie tun sollen, muss die Branche hier stehen bleiben?

Das Forschungsteam aus der Stanford University und MIT hat eine positive Antwort gegeben. Das neu veröffentlichte KI - Agenten - Inferenzframework ReCAP (Rekursive Kontext - Aware - Inferenz und Planung) vereinigt erstmals Sequenzinferenz und Hierarchieinferenz und hat in verschiedenen Aufgaben ReAct umfassend besiegt. Gleichzeitig hat es die Vorteile von ReAct, wie einfache Beispiele, hohe Universalität und Plug - and - Play - Funktionalität, übernommen.

Link zur Studie: https://arxiv.org/pdf/2510.23822

Unter strenger Einhaltung des pass@1 - Bewertungsprinzips (einmaliger Durchlauf) hat ReCAP in der Langsequenz - Embodied - Aufgabe Robotouille im Vergleich zur ReAct - Basislinie eine enorme Leistungssteigerung von 84,2 % (synchron) und 112,5 % (asynchron) erzielt.

Die drei Schwachstellen bei Langkontextaufgaben

Das Team hat festgestellt, dass heutige große Sprachmodelle bei der Ausführung komplexer Aufgaben in der Regel drei Probleme haben:

Zielabweichung (Goal Drift): Nach wenigen Schritten wird das ursprüngliche Ziel allmählich vergessen, so dass das Ergebnis nicht mit den Erwartungen übereinstimmt.
Kontextverlust (Context Loss): Die Planungsinformationen auf höherer Ebene gehen in der Langsequenzausführung verloren, was zu einer Unstimmigkeit zwischen der oberen Ebene des Denkens und der unteren Ebene der Ausführung führt.
Kostenexplosion (Prompt Explosion): Bei jeder Rekursion werden die Kontextbeispiele und Hinweiswörter erneut aufgeführt, was zu einem exponentiellen Anstieg der Inferenzkosten führt.

Einfach ausgedrückt, ist ein LLM wie ein Genie mit Kurzzeitgedächtnis, und die gängigen Inferenzframeworks haben ihre jeweiligen Grenzen:

Sequenzinferenz (z. B. Chain of Thoughts, ReAct) hat zwar einen kohärenten Kontext, aber aufgrund der langen Aufgaben wird das Ziel oft verloren;
Hierarchieinferenz (z. B. ADaPT, THREAD) teilt die Aufgabe in Teilaufgaben auf, um das Ziel zu klaren, aber die separate Zuweisung von Kontextbeispielen und Hinweiswörtern für die Teilaufgaben führt zu Kontextverlust und Kostenexplosion.

ReCAP: Die organische Kombination von Sequenzinferenz und Hierarchieinferenz

Das Herzstück von ReCAP ist die Verwendung einer rekursiven Baumstruktur mit Gedächtnis und Rückkopplung als Arbeitsgedächtnisbereich des Modells. Seine drei Mechanismen sind eng miteinander verknüpft:

Rekursive Aufgabenaufteilung mit Vorausplanung (Recursive Task Decomposition with Plan - Ahead): Das Modell erstellt zunächst eine vollständige Liste von Teilaufgaben, führt aber nur die erste Teilaufgabe aus. Nach Abschluss wird der nachfolgende Plan dynamisch optimiert.
Strukturierte Wiedereinbindung der übergeordneten Aufgabe (Consistent Multi - level Context and Structured Injection): Der gesamte Ausführungsablauf hat nur einen Kontext, der von allen Aufgaben geteilt wird. Wenn eine Teilaufgabe rekursiv zurückkehrt, wird die Überlegung und der Plan der übergeordneten Aufgabe erneut in den Kontext eingebunden, so dass die übergeordnete Aufgabe bei der Neupianung auf die letzte Überlegung und das Ausführungsergebnis zurückgreifen kann und die unteren Ebenen der Ausführung so planen kann, dass das Aufgabenziel tatsächlich erreicht wird.
Schiebendes Fenster für effizientes Gedächtnis (Sliding Window and Scalable Memory Efficiency): Durch den Mechanismus des schiebenden Fensters wird nur die neueste relevante Geschichte im einheitlichen Kontext beibehalten, was eine tiefe Rekursion mit kontrollierter Speicherauslastung ermöglicht und von Grund auf die Kostenexplosion verhindert.

Experimentelle Ergebnisse: Starke Leistungssteigerung bei Langkontextaufgaben

Das Team hat die Effektivität von ReCAP an mehreren typischen Langkontext - Inferenz - Benchmarks validiert. Die Ergebnisse sind beeindruckend:

Bei Robotouille (synchron) wurde eine Erfolgsrate von 70 % erreicht, was im Vergleich zu ReAct (38 %) einer Steigerung von 84,2 % entspricht.
Bei Robotouille (asynchron) wurde eine Erfolgsrate von 53 % erreicht, was im Vergleich zu ReAct (24 %) einer Steigerung von 112,5 % entspricht.
Bei ALFWorld wurde eine Erfolgsrate von 91 % erreicht, was stabil besser als ReAct (84 %) ist.
Bei SWE - bench Verified wurde eine Erfolgsrate von 44,8 % erreicht, was besser als die ReAct - Basislinie (39,58 %) ist.

Es ist zu beachten, dass das Team bei den Experimenten immer das pass@1 - Experimentprinzip befolgt hat, d. h. es wurden keine Wiederholungen auf Stichprobenebene, Mehrheitsabstimmungen oder Strahlensuche verwendet. Dies bedeutet, dass ReCAP in einer realen Umgebung mit mehreren Schritten besser die Zielkonsistenz und die Ausführungskohärenz aufrechterhalten kann - es kann nicht nur "richtig denken", sondern auch "stabil handeln".

ReCAP ist neben ReAct ein weiteres generisches Inferenzarchitektur, das in beiden völlig verschiedenen Aufgaben, der Embodied - Inferenz und der Codebearbeitung, eine solide Leistung zeigt.

In der Studie wurden andere Baseline - Modelle wie THREAD und Reflexion ausgeschlossen, da sie in der experimentellen Einstellung schwer reproduzierbar waren oder nicht mit dem pass@1 - Protokoll kompatibel waren. Dies hebt das Potenzial von ReCAP als neue generische Inferenz - Baseline noch stärker hervor.

Ausgewogenheit zwischen Vorteilen und Kosten

Jede starke Fähigkeit ist mit Kosten verbunden. Das Team hat dies transparent analysiert: Die Gesamtrechenkosten von ReCAP sind etwa dreimal so hoch wie die von ReAct. Dies kommt hauptsächlich von den zusätzlichen LLM - Aufrufen, die der zentrale Mechanismus der Vorausplanung erfordert.

Allerdings ist diese Kostensteigerung in praktischen Anwendungen, die eine hohe Genauigkeit erfordern, akzeptabel, wenn man die starke Leistungssteigerung und die Zielkonsistenz in kritischen Aufgaben berücksichtigt. Dies bietet den Entwicklern eine klare Option für die Abwägung von Kosteneffizienz.

Is Rekursion der Schlüssel zur generischen Intelligenz?

Von menschlichem Denken bis hin zum Turing - Maschinenmodell ist Rekursion immer die zugrunde liegende Logik der Intelligenz. Die Einführung von ReCAP kann als ein wichtiger Schritt der KI in Richtung eines generischen Inferenzsystems angesehen werden.

Sein Potenzial geht weit über die in der Studie validierten Aufgabenbereiche hinaus. Alle großen Aufgaben, die auf komplexen Entscheidungszyklen und langfristigem Kontextgedächtnis beruhen, sind ideale Anwendungsfälle für ReCAP.

Beispielsweise kann es in der tiefen Forschung automatisch Literatur durchsuchen, Informationen aus verschiedenen Quellen integrieren und Einsichtsberichte generieren; oder in der komplexen Softwareentwicklung ein riesiges Code - Repository und Abhängigkeiten verwalten und Systemprojekte voranbringen, die mehrere Schritte zur Validierung erfordern.

In der langen Perspektive kann die rekursive Planungsfähigkeit von ReCAP mit räumlicher Intelligenz kombiniert werden, um noch komplexere Probleme in der realen Welt zu lösen. Professorin Fei - Fei Li hat kürzlich darauf hingewiesen, dass räumliche Intelligenz - die Fähigkeit, die dreidimensionale Welt zu verstehen, darüber zu schließen und mit ihr zu interagieren - die nächste Frontiers der KI ist.

ReCAP kann für Embodied - Intelligenz - Roboter komplexe langfristige Aufgabenfolgen planen, während das räumliche Intelligenzmodell die Echtzeitwahrnehmung und die Bewegungssteuerung übernimmt. Die Kombination beider ermöglicht es den Robotern, in einer dynamischen Umgebung autonom zu planen und zuverlässig auszuführen.

Mit der Veröffentlichung des Codes könnte eine neue Ära der KI anbrechen, die besser in der Lage ist, langfristige Pläne zu erstellen und stabil auszuführen.

Über die Autoren

Die gemeinsamen Erstautoren Zhenyu Zhang, Tianyi Chen und Weiran Xu sind alle Master - Studenten der Fakultät für Informatik der Stanford University.

Professor Alex Pentland ist einer der Gründer des Media Lab der Massachusetts Institute of Technology (MIT), Mitglied der US National Academy of Engineering, Toshiba - Professor an der MIT und Fellow des Stanford HAI.

Dr. Jiaxin Pei ist ein Postdoktorand an der Stanford University. Seine Forschungsinteressen konzentrieren sich auf große Sprachmodelle, Mensch - Maschine - Interaktion und Agentic AI. Er wird bald als Dozent an der University of Texas at Austin lehren.

Quellenangaben

https://arxiv.org/pdf/2510.23822

Dieser Artikel stammt aus dem WeChat - Account "New Intelligence Yuan", Autor: LRST, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。