StartseiteArtikel

Neuste Studie von Stanford: Der Kontext von KI ist wichtiger als die Parameter, keine erneute Training und keine weitere Feinabstimmung erforderlich

大数据文摘2025-10-31 15:47
Die Fähigkeiten von Large Language Models werden nicht nur von den Parametern bestimmt, sondern auch von der "Qualität des Kontexts".

In letzter Zeit haben die Stanford University und SambaNova Systems zusammen die Studie "Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models" veröffentlicht.

In dieser Studie wird ein Framework namens ACE (Agentic Context Engineering) vorgeschlagen, das es KI-Systemen ermöglicht, sich ohne erneutes Trainieren der Gewichte zu verbessern.

Link zur Studie: http://arxiv.org/abs/2510.04618v1

Der Kerngedanke der Studie ist, dass die Fähigkeiten von großen Modellen nicht nur von den Parametern bestimmt werden, sondern auch von der "Qualität des Kontexts". Mit anderen Worten: Wer den optimalen Kontext konstruieren kann, kann das Modell intelligenter machen.

Der Kerngedanke von ACE besteht darin, dass das Modell nicht länger auf "statische Prompts" angewiesen ist, sondern sich einer dynamischen, strukturierten und evolvierbaren "Wissenshandbuch" (Playbook) zuwendet.

Diese Handbücher dokumentieren die Strategien, Regeln, Vorlagen und Korrekturregeln, die das Modell beim Ausführen von Aufgaben gesammelt hat. Jeder Erfolg oder Misserfolg wird in eine "inkrementelle Aktualisierung" (Delta) umgewandelt.

Im Gegensatz zu herkömmlichen "Prompt-Umschreibungen" verbessert ACE das Handbuch kontinuierlich durch kleine, sichere Aktualisierungen, anstatt es komplett neu zu schreiben.

Dieser Mechanismus bedeutet, dass KI in der Laufzeit lernen, sich erinnern und verbessern kann, ohne dass eine Feinabstimmung der Parameter erforderlich ist.

ACE-Framework

Die Forscher weisen darauf hin, dass dieser Mechanismus zwei fatale Probleme vermeiden kann: Einerseits das Vereinfachungsbias (Brevity Bias), bei dem wichtige Details beim Streben nach einer vereinfachten Optimierung verloren gehen; andererseits den Kontextzusammenbruch (Context Collapse), d. h. das Wissensverlust durch Umschreibungen.

Die Studie gibt als Beispiel an, dass in einem Experiment ein KI-Agent einen Kontext von 18.000 Token gesammelt hat und sich gut bewährt hat. Als das Modell jedoch versuchte, diesen Kontext "zusammenzufassen und zu komprimieren", wurde das Handbuch auf nur 122 Token reduziert und die Leistung fiel sofort auf 57,1%.

Die Forscher sagen direkt: "Das Modell ist gut darin, Wissen zu nutzen, aber schlecht darin, es zu organisieren. Eine falsche Umschreibung kann das gesamte gesammelte Wissen zerstören."

Die Studie besagt, dass ACE das strukturelle Risiko dieses "selbstzerstörerischen Lernens" löst.

Bildbeschreibung: Das ACE-Framework ist in drei Arten von Aufgaben (Agentenoperationen, Fachwissen, numerische Inferenz) deutlich besser als andere Methoden, und die Genauigkeitssteigerung ist am offensichtlichsten.

Dreifache Rollenkooperation: Generierung, Reflexion, Kuratierung

Das ACE-System basiert auf einer minimalistischen Philosophie: Wissen nicht umschreiben, sondern verwalten.

Das gesamte System wird in drei komplementäre Rollen aufgeteilt.

Die erste ist der Generator. Er ist für die Ausführung von Aufgaben, die Interaktion mit der Umgebung und die Generierung von Inferenzprozessen, Code oder Handlungssequenzen verantwortlich.

Die zweite ist der Reflektor. Er analysiert die Handlungspfade des Generators, erkennt die Gründe für Erfolg und Misserfolg und extrahiert "handlungsrelevante Lehren". Diese Rückmeldungssignale können aus Codefehlern, Ausführungsergebnissen oder externen Labels stammen.

Die dritte ist der Kurator. Er extrahiert diese Erfahrungen zu strukturierten Einträgen (Delta-Kontext) und integriert sie über deterministische Regeln (nicht Entscheidungen von Sprachmodellen) in das Haupt Handbuch.

Dieser dreistufige Zyklus - Handeln, Reflektieren, Integrieren - bildet den Lernkreislauf von ACE.

Jede Aktualisierung betrifft nur lokale Einträge und berührt nicht den gesamten Text. Dieser lokale Inkrementalmekanismus ermöglicht es dem Wissensspeicher, sich ständig zu erweitern, ohne zusammenzubrechen.

Das Handbuch selbst ist als projektorientierte Struktur konzipiert: Es enthält Strategieregeln, API-Aufrufvorlagen, Debuggingerfahrungen, Lösungen für häufige Fehler usw. Jeder Eintrag ist mit Nutzungszählungen und positiven/negativen Rückmeldungsmetadaten versehen.

Der Reflektor beurteilt anhand dieser Aufzeichnungen, welche Regeln effektiv und welche nutzlos sind. Der Kurator ändert oder löscht sie dann entsprechend.

Die Studie besagt, dass auf diese Weise das Wissen der KI "wie ein Git-Repository evolviert" und sicher wachsen, sorgfältig trimmen und transparent nachverfolgen kann.

Die Forscher betonen, dass die Komplexität von ACE kein Nachteil, sondern ein strukturierter Sicherheitsmechanismus ist, der ein stabiles Wissensakkumulation mit geringem Systemaufwand erzielt.

Kleines Modell "schlägt über Rang": DeepSeek besiegt GPT-4.1

Im komplexen AppWorld-Agentenaufgabe bringt das ACE-Framework eine durchschnittliche Leistungssteigerung von +10,6 % und reduziert die Anpassungsverzögerung um 86,9 %.

Das Forschungsunternehmen hebt besonders hervor, dass diese Verbesserung nicht auf einem größeren Modell beruht, sondern auf einer besseren Kontextverwaltung.

Ein typisches Beispiel ist: DeepSeek V3.1 hat eine geringere Parameterzahl als GPT-4.1. Aber im Rahmen von ACE kann es im AppWorld-Benchmarktests mit dem GPT-4.1-Agenten (IBM CUGA) gleichziehen und sogar in komplexeren Testsätzen übertreffen.

Die Forscher weisen darauf hin, dass dieses Ergebnis zeigt, dass "Kontextmanagement" ein neues Mittel zur Gleichstellung der Rechenleistung geworden ist.

Noch wichtiger ist, dass ACE ein erstaunlicher Effizienzvorteil hat. Beim mehrstufigen Aufgabenlernen reduziert es die Aktualisierungsverzögerung um 82 % bis 91 % und senkt die Token-Kosten um 83,6 %.

Bildbeschreibung: Im Finanzanalyseaufgabe verbessert das ACE-Framework die Modellleistung deutlich (durchschnittlich um etwa 8,6 %), und es kann auch in Abwesenheit echter Labels eine stabile Leistung beibehalten.

Die Studie meint, dass dies "Online-Kontinuierliches Lernen" von einem Konzept zur Realität macht. KI muss nicht mehr häufig feinabgestimmt werden, sondern kann sich in der Laufzeit selbst optimieren.

Gleichzeitig macht das strukturierte Handbuch von ACE den Lernprozess nachvollziehbar, überprüfbar und rückgängig machbar.

Wenn eine Regel als veraltet, unausgewogen oder gegen Regeln verstoßend erkannt wird, kann das System genau den entsprechenden Eintrag löschen und so ein "selektives Vergessen" erreichen.

Dieser Artikel stammt aus dem WeChat-Account "Big Data Digest" und wurde von 36Kr mit Genehmigung veröffentlicht.