Ist das Fine-Tuning tot? Agentisches Kontext-Engineering: Modellentwicklung ohne Fine-Tuning

Das ACE-Framework kann eine erweiterbare und effiziente kontextsensitive Anpassung realisieren und ist sowohl für Offline- als auch für Online-Szenarien geeignet.

Was hat einen AI-Automatisierungsarchitekten dazu gebracht, den Ausspruch „Das Finetuning ist tot“ zu äußern?

Eine kürzlich veröffentlichte Studie von Stanford University, SambaNova und der Universität von Kalifornien, Berkeley, hat in der Fachwelt für rege Diskussionen gesorgt. Die Forscher haben eine neue Technologie namens Agentic Context Engineering (ACE, Agentisches Kontext-Engineering) vorgestellt, die es Sprachmodellen ermöglicht, sich ohne Finetuning stetig zu verbessern!

Titel der Studie: Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

Link zur Studie: https://www.arxiv.org/abs/2510.04618

Alles beginnt mit der Kontextanpassung

Moderne KI-Systeme auf Basis von Large Language Models (LLMs), wie etwa LLM-Agenten und komplexe KI-Systeme, setzen zunehmend auf Kontextanpassung (context adaptation).

Konkret bedeutet dies, dass nach Abschluss des Trainings eines Modells dessen Leistung durch die Einbeziehung klarerer Anweisungen, strukturierter Schlussfolgerungsschritte oder domänenspezifischer Eingabeformate in die Eingabe verbessert werden kann. Dies unterscheidet sich deutlich von der Methode des Finetunings, bei der die Modellparameter direkt geändert werden.

Der Kontext bildet die Grundlage vieler Komponenten von KI-Systemen, darunter: Systemhinweise, die die Durchführung von Aufgaben leiten, Gedächtnismechanismen, die frühere Tatsachen und Erfahrungen speichern, und Tatsachenbeweise, die dazu dienen, Halluzinationen zu reduzieren und Wissen zu ergänzen.

Im Vergleich zur Aktualisierung von Modellparametern bietet die Anpassung über den Kontext mehrere entscheidende Vorteile: Der Kontext ist für Benutzer und Entwickler besser interpretierbar; es können schnell neue Erkenntnisse integriert werden; und er kann zwischen verschiedenen Modellen oder Modulen in komplexen Systemen geteilt werden. Gleichzeitig machen Fortschritte bei der Entwicklung von Sprachmodellen mit langem Kontext und effizienten Inferenzmechanismen (wie der Wiederverwendung von KV-Caches) die kontextbasierte Methode immer realisierbarer. Daher wird die Kontextanpassung zunehmend zur zentralen Methode bei der Entwicklung von leistungsstarken, skalierbaren und sich selbst verbessernden KI-Systemen.

Dennoch weisen bestehende Methoden der Kontextanpassung zwei wesentliche Einschränkungen auf.

Erstens gibt es die „Brevity Bias“ (Präferenz für Kürze): Viele Optimierer für Hinweise neigen dazu, kurze und universell anwendbare Anweisungen zu bevorzugen und vernachlässigen dabei die umfassende Akkumulation von Wissen. Beispielsweise wird in der GEPA-Methode Kürze als Vorteil angesehen, doch kann diese Abstraktion wichtige domänenspezifische Heuristiken, Anleitungen zur Verwendung von Tools oder häufige Fehlermuster übersehen. Solche Optimierungsziele können zwar in einigen Metriken wirksam sein, erfassen aber oft nicht die detaillierten Strategien, die für Agenten oder wissensintensive Anwendungen erforderlich sind.

Zweitens gibt es das Problem der „Context Collapse“ (Zusammenbruch des Kontexts): Die Methode, bei der das LLM den gesamten Hinweis neu formuliert, neigt dazu, mit der Zeit zu kürzeren und unklareren Zusammenfassungen zu führen, was zu einem drastischen Leistungsabfall führt (siehe Abbildung 2). Bei Aufgaben wie interaktiven Agenten, domänenspezifischem Programmieren oder Finanz- oder Rechtsanalysen hängt die Leistung des Systems von der Beibehaltung detaillierter, auf die Aufgabe bezogener Informationen ab, anstatt diese zu komprimieren.

Angesichts der steigenden Anforderungen an die Zuverlässigkeit von Agenten und wissensintensiven Schlussfolgerungen richten sich neuere Forschungen zunehmend auf die Erstellung von „informationsreichen“ Kontexten, die dank Fortschritten bei langkontextfähigen Sprachmodellen mehr potenziell nützliche Informationen aufnehmen können.

Das Team aus Stanford University, SambaNova und der Universität von Kalifornien, Berkeley, ist der Meinung, dass der Kontext nicht als kurzer Zusammenfassung, sondern als umfassendes, sich ständig entwickelndes „Handbuch“ (playbook) gesehen werden sollte – ein Handbuch, das detailliert, umfassend und reich an domänenspezifischen Erkenntnissen ist. Im Gegensatz zu Menschen arbeiten Sprachmodelle besser, wenn ihnen ein langer und detaillierter Kontext zur Verfügung gestellt wird, und können von selbst entscheiden, welche Informationen für die Schlussfolgerung am wichtigsten sind. Daher sollten, anstatt Strategien und Erkenntnisse zu komprimieren, diese beibehalten werden, damit das Modell während der Inferenz selbst entscheiden kann, welche Informationen am relevantesten sind.

Auf dieser Grundlage wurde das Agentische Kontext-Engineering (ACE) entwickelt.

Agentisches Kontext-Engineering (ACE)

Das von dem Team vorgeschlagene ACE-Framework (Agentic Context Engineering) ermöglicht eine skalierbare und effiziente Kontextanpassung und kann sowohl offline (z. B. bei der Optimierung von Systemhinweisen) als auch online (z. B. bei der Anpassung des Gedächtnisses während des Tests) eingesetzt werden.

Im Gegensatz zu früheren Methoden, bei denen Wissen in kurze Zusammenfassungen oder statische Anweisungen verdichtet wurde, sieht ACE den Kontext als sich ständig entwickelndes Handbuch an, das ständig Strategien sammelt, verdichtet und organisiert.

Basierend auf der Agentischen Architektur von Dynamic Cheatsheet (siehe arXiv:2504.07952) führt ACE drei kollaborierende Rollen ein:

Generator: Erzeugt Schlussfolgerungspfade;
Reflektor: Extrahiert spezifische Erkenntnisse aus erfolgreichen und fehlerhaften Schritten;
Kurator: Integriert diese Erkenntnisse in strukturierte Kontextaktualisierungen.

Dieses Design imitiert den menschlichen Lernprozess, nämlich Experimentieren – Reflektieren – Integrieren, und vermeidet gleichzeitig Engpässe, die bei der Verwendung eines einzigen Modells für alle Aufgaben auftreten können.

Um die oben genannten Probleme der „Brevity Bias“ und der „Context Collapse“ zu lösen, führt ACE drei wichtige Innovationen ein:

Spezialisierter Reflektormodul: Entkoppelt die Bewertung und die Extraktion von Erkenntnissen von der Organisation des Kontexts, was die Qualität des Kontexts und die Leistung bei nachgelagerten Aufgaben verbessert;
Inkrementelle Delta-Aktualisierungsmechanismus: Ersetzt die vollständige Neuformulierung des Kontexts durch lokale Bearbeitungen, was die Latenzzeit und die Rechenleistung erheblich reduziert;
Grow-and-Refine-Mechanismus: Ermöglicht die kontinuierliche Erweiterung des Kontexts, während Redundanzen vermieden werden, um eine stabile Entwicklung des Kontexts zu gewährleisten.

Im Arbeitsablauf erzeugt der Generator zunächst Schlussfolgerungspfade für neue Aufgaben, die effektive Strategien und häufige Fallstricke aufzeigen. Der Reflektor analysiert diese Pfade, extrahiert Erkenntnisse und kann diese über mehrere Iterationen hinweg optimieren. Der Kurator integriert diese Erkenntnisse dann in kompakte inkrementelle Einträge (delta entries), die über einen leichten, nicht auf einem LLM basierenden Logikmechanismus in den bestehenden Kontext integriert werden.

Da die Aktualisierungen lokalisiert sind, können mehrere inkrementelle Einträge parallel integriert werden, was eine Massenanpassung und Skalierung ermöglicht. ACE unterstützt auch die mehrfache Anpassung (multi-epoch adaptation), sodass die gleichen Aufgaben mehrmals bearbeitet werden können, um den Kontext stetig zu verbessern.

Inkrementelle Delta-Aktualisierungen

Das zentrale Konzept von ACE ist, den Kontext als strukturierte Sammlung von Einträgen (bullets) darzustellen, anstatt ihn als eine einzelne, zusammenhängende Anweisung zu betrachten.

Jeder Eintrag besteht aus zwei Teilen:

Metadaten (metadata): Ein eindeutiger Bezeichner sowie Zähler für die „Nützlichkeit“ und die „Schädlichkeit“;
Inhalt (content): Beispielsweise wiederverwendbare Strategien, domänenspezifische Konzepte oder häufige Fehlermuster.

Beim Lösen neuer Aufgaben markiert der Generator, welche Einträge hilfreich oder irreführend waren, um dem Reflektor die Grundlage für eine Verbesserung zu geben.

Diese strukturierte Eintragsform bringt drei wesentliche Vorteile:

Lokalisierung (localization): Nur die relevanten Einträge werden aktualisiert;
Feingranulare Suche: Der Generator kann sich auf das am besten passende Wissen konzentrieren;
Inkrementelle Anpassung: Die Integration, das Pruning und die Entfernung von Duplikaten können während der Inferenz effizient durchgeführt werden.

ACE erstellt keine vollständige Neuformulierung des Kontexts, sondern erzeugt kompakte inkrementelle Kontexte (delta contexts): Eine kleine Gruppe von Kandidaten-Einträgen, die vom Reflektor extrahiert und vom Kurator integriert werden.

Diese Methode vermeidet sowohl die hohen Rechenkosten und die Latenzzeit der vollständigen Neuformulierung als auch den Verlust von altem Wissen und ermöglicht die kontinuierliche Integration von neuen Erkenntnissen. Mit der wachsenden Größe des Kontexts bietet dieser Mechanismus die erforderliche Skalierbarkeit für langfristige oder wissensintensive Aufgaben.

Grow-and-Refine

Um sicherzustellen, dass der Kontext kompakt und relevant bleibt, führt ACE regelmäßig oder verzögert eine Verdichtung des Kontexts durch.

Im Grow-and-Refine-Prozess werden neue Einträge in den Kontext eingefügt, während bestehende Einträge über die Aktualisierung ihrer Metadaten (z. B. durch die Erhöhung von Zählern) direkt im Kontext verbessert werden.

Die Entfernung von Duplikaten erfolgt durch den Vergleich der Ähnlichkeit von Einträgen anhand von semantischen Einbettungen. Dieser Schritt kann entweder aktiv nach jeder inkrementellen Aktualisierung oder passiv ausgelöst werden, wenn die maximale Größe des Kontexts erreicht wird, je nachdem, welche Anforderungen an die Latenzzeit und die Genauigkeit gestellt werden.

Die inkrementellen Aktualisierungen und der Grow-and-Refine-Mechanismus sorgen gemeinsam für die dynamische Skalierbarkeit und die hohe Relevanz des Kontexts.

Wie gut funktioniert ACE?

Das Team hat Experimente durchgeführt, um die Effektivität der neuen Methode zu überprüfen.

Konkret haben sie Experimente mit zwei Arten von Aufgaben durchgeführt: Agenten-Aufgaben und domänenspezifische Aufgaben.

Agenten-Aufgaben: Es wurde der AppWorld-Benchmark verwendet, der komplexe Verhaltensweisen wie mehrstufige Schlussfolgerungen, den Aufruf von Tools und die Interaktion mit der Umgebung umfasst. Der Benchmark bietet Szenarien unterschiedlicher Schwierigkeit (Normal- und Herausforderungsmodus) und verfügt über eine öffentliche Rangliste, um die tatsächliche Leistung von Agenten zu bewerten.
Domänenspezifische Aufgaben: Hier wurde die Finanzanalyse fokussiert, wobei die Datensätze FiNER und Formula verwendet wurden. Das erste Dataset erfordert die Identifizierung von feingranularen Entitätstypen in XBRL-Finanzberichten, während das zweite die Fähigkeit des Modells zur numerischen Schlussfolgerung und Berechnung in strukturierten Finanzberichten testet.

Als Vergleichsmethoden wurden die folgenden Ansätze herangezogen:

ICL (In-Context Learning): Ermöglicht das Few-Shot-Learning durch die Einbeziehung von Beispielen in die Eingabe;
MIPROv2 und GEPA: Zwei gängige Algorithmen zur Optimierung von Hinweisen, die auf Bayes'scher Optimierung bzw. auf einem reflexiven Evolutionsansatz basieren;
Dynamic Cheatsheet (DC): Ein Mechanismus zur Anpassung des Gedächtnisses während des Tests, der wiederverwendbare Strategien und Wissen sammelt.

Im Vergleich zu diesen Methoden erzielt ACE bei demselben Basis-Modell und unter denselben Betriebsbedingungen durch seinen „Generieren – Reflektieren – Integrieren“-Ansatz eine höhere Genauigkeit, eine schnellere Anpassung und geringere Rechenkosten.

Die Experimente haben gezeigt, dass ACE hervorragende Ergebnisse erzielt. Das folgende Bild zeigt die Gesamtleistung von ACE – es ist unverkennbar, dass es deutliche Vorteile bietet.

Zunächst kann ACE tatsächlich leistungsstarke, sich selbst verbessernde Agenten schaffen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ist das Fine-Tuning tot? Agentisches Kontext-Engineering tritt auf die Bühne, um die Modellentwicklung ohne Fine-Tuning zu erreichen

Alles beginnt mit der Kontextanpassung

Agentisches Kontext-Engineering (ACE)

Inkrementelle Delta-Aktualisierungen

Grow-and-Refine

Wie gut funktioniert ACE?