Harness: Momentan in Mode, aber bald Geschichte?

Was Harness verschlingen könnte, ist möglicherweise ein ruhigeres und geduldigeres Modell.

Mit zunehmender Komplexität der Aufgaben dehnt sich der Kontext des Agenten (Intelligenten Agenten) unendlich aus. In der unendlichen Geschichte von Dialogen, Tool-Aufrufausgaben, Zwischenschritten und Fehlermeldungen verwirrt sich das Modell und beginnt dann, Schritte zu überspringen, Dinge zu ignorieren und Umwege zu gehen.

Dies ist die bisherige Interpretation der Schwierigkeiten, die der Kontext für langfristige Aufgaben mit sich bringt. Das Problem liegt darin, dass der Kontext zu lang ist.

Die Entstehung der Harness Engineering (Einschränkungstechnik) dient in hohem Maße dazu, diese Probleme zu beheben. Ein grundlegender Voraussetzung für die Harness ist die Annahme, dass das Modell in einem langen Kontext zwangsläufig an Leistung verliert.

In den letzten 15 Monaten hat sich die Branche von der reinen Texterinnerung von AutoGPT bis hin zur CLAUDE.md und dem Subagentensystem von Anthropic Claude Code entwickelt. Die Branche hat eine ganze Reihe von technischen Hilfsmitteln entwickelt, um das unkontrollierte Verhalten des Modells in einem langen Kontext einzudämmen. Diese Vorgehensweise wird als Harness Engineering (Einschränkungstechnik) bezeichnet.

Aber was genau verschlechtert sich? Wie sieht der grundlegende Mechanismus hinter dem Überspringen von Schritten und der Ignoranz aus? Es gab bereits drei Runden von Antworten, die auch verschiedene technische Lösungen hervorgebracht haben.

Es war erst im April 2026, als Gleb Rodionov von Yandex eine Studie mit dem Titel "Reasoning Shift" (Schieflage der Argumentation, d.h. wie der Kontext heimlich die Argumentation großer Modelle verkürzt) veröffentlichte, dass eine tiefere Antwort gefunden wurde.

01 Drei Ebenen an technischen Hilfsmitteln reichen nicht, um die Krise auf der vierten Ebene einzudämmen

Warum das Modell in einem langen Kontext schlechte Ergebnisse liefert, wurde von der Branche in den letzten drei Jahren in drei Ebenen erklärt, und für jede Ebene wurden entsprechende technische Hilfsmittel entwickelt.

Die erste Ebene führt das Problem auf fehlgeschlagene Abfragen zurück. 2023 zeigten die Forscher von Stanford in ihrer Studie "Lost in the Middle", dass das Modell in langen Texten eine U-förmige Aufmerksamkeitskurve bildet und den mittleren Bereich ignoriert. Die Branche hat als Gegenmaßnahme die Retrieval-Augmented Generation (RAG) eingeführt, bei der lange Texte in Fragmente zerlegt und die relevantesten Fragmente über Vektorabfragen bereitgestellt werden.

Die zweite Ebene widerlegt die erste. Eine Studie aus dem Jahr 2025 mit dem Titel "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval" hat Experimente durchgeführt: Wenn alle irrelevanten Inhalte ausgeblendet und das Modell gezwungen wird, nur die benötigten Informationen zu betrachten, sinkt die Leistung dennoch um 13,9 % bis 85 %. Selbst wenn alle irrelevanten Inhalte durch Leerzeichen ersetzt werden, bleibt das Ergebnis gleich. Das Problem liegt nicht darin, dass die Informationen nicht gefunden werden können, sondern daran, dass die reine Länge des Kontexts die Argumentation schädigt.

Die Branche hat als Gegenmaßnahme die Context Engineering (Kontexttechnik) eingeführt. Dabei werden der Kontext komprimiert, die Fenster verwaltet und die Historie konzentriert, um die Anzahl der Tokens strikt zu begrenzen.

Die dritte Ebene basiert auf einer gemeinsamen Studie von Microsoft und Salesforce (ICLR 2025). Sie haben festgestellt, dass die Leistung des Modells, wenn vollständige Anweisungen in mehreren Runden übergeben werden, im Durchschnitt um 39 % einbricht, und zwar in sechs Aufgaben und bei fünfzehn Modellen. Sobald in einer Runde ein Schritt falsch gemacht wird, verirrt sich das Modell vollständig.

Die Branche hat in der Harness die wichtigste und stärkste Abwehr errichtet: Übergabe-Management, regelmäßige Zwangsprüfung von Zwischenergebnissen und die Verwendung eines Code-Repositories als einziger Quelle der Wahrheit. Das Modell darf nicht selbst entscheiden, was in der vorherigen Runde passiert ist.

Drei Probleme, drei Ebenen an technischen Hilfsmitteln. Aber all dies sind nur Beobachtungen auf der Phänomenebene.

Bei der zweiten Ebene haben die Forscher festgestellt, dass die Länge an sich schädlich ist, unabhängig von der Qualität der Informationen. Warum dies so ist, haben sie keine Antwort. Ohne die Ursache zu kennen, kann die Branche nur die Länge physisch kontrollieren.

Was aber, wenn die Ursache des Problems gar nicht in der Länge selbst liegt?

Anthropic hat festgestellt, dass das Modell in einem langen Kontext schlau Schritte überspringt, Anweisungen nicht befolgt und wichtige Aspekte nur oberflächlich behandelt. Die Todo-Listen, Checkpoints und Subagenten in der Harness kämpfen direkt gegen dieses Verhalten.

Bisher wurde das Problem darauf zurückgeführt, dass der Kontext zu lang ist und das Modell Dinge übersieht. Aber sind die Ergebnisse der großen Modelle mit einer Kontextlänge von einer Million Tokens nur Täuschungen? Ist es möglich, dass diese Verschlechterung eigentlich darauf zurückzuführen ist, dass das Modell faul ist?

Rodionovs Studie soll diese Vermutung überprüfen.

02 Mit Shakespeare die Beweise für das Faulheit des Modells finden

Rodionovs experimenteller Ansatz ist äußerst direkt.

Bei derselben Olympiade-Aufgabe haben sie mehrere reale Szenarien simuliert, denen ein Agent begegnen könnte: eine saubere Baseline-Umgebung; zwei Aufgaben in demselben Hinweis (Simulation von mehreren Teilaufgaben); 64.000 Tokens des vollständigen Shakespeare-Textes vor der Aufgabe (Simulation der Anhäufung von historischen Informationen); die Aufgabe in der zweiten Runde versteckt (Simulation eines mehrrundigen Dialogs).

Zur Bewertung wurden 400 mathematische Aufgaben der olympiade-Ebene verwendet, und vier führende Argumentationsmodelle wurden getestet.

Ergebnis: Die Baseline-Genauigkeit von Qwen-3.5-27B betrug 74,5 %, und die durchschnittliche Argumentation betrug 28.771 Tokens. Nach dem Hinzufügen des Shakespeare-Textes sank die Genauigkeit auf 67,8 %, und die Anzahl der Argumentationstokens schrumpfte auf 16.415, was einem Rückgang von 43 % entspricht. Bei GPT-OSS-120B war die Abnahme noch deutlicher: Die Argumentationsmenge ging von 24.180 direkt auf die Hälfte, nämlich auf 11.876. Bei allen vier Modellen unter allen nicht-baseline-Bedingungen schrumpfte die Anzahl der Argumentationstokens systematisch, und der Höchstwert lag bei fast 50 %.

Außerdem nimmt diese Verkürzung linear mit der Länge des Kontexts zu.

Ein Abfall der Genauigkeit ist verständlich, aber ein starker Rückgang der Argumentationsmenge ist äußerst ungewöhnlich. Wenn das Modell auf schwierigere Situationen stößt, sollte es eigentlich mehr nachdenken.

Wurde das Modell also von Shakespeare verwirrt?

Genau das Gegenteil. Im Anhang der Studie schreibt das Modell: "Lass mich überprüfen, ob hier eine Falle versteckt ist. Kommt diese Aufgabe aus Shakespeares Coriolanus? Nein, die ursprüngliche Aufgabe ist eine mathematische Aufgabe." Bei einer geometrischen Aufgabe schreibt es: "Dies hat nichts mit der geometrischen Aufgabe zu tun. Konzentriere dich auf die Geometrie."

Jeder Bezug auf die Störung ist äußerst kurz und verächtlich. Das Modell weiß genau, dass Shakespeare irrelevant ist und trennt präzise Signal und Rauschen voneinander.

Die anderen beiden Szenarien führen zum gleichen Ergebnis. Im "Teilaufgaben"-Modus schränkt das Modell seine kognitive Aufmerksamkeit für die zweite Aufgabe weiter ein, sobald die erste Aufgabe abgeschlossen ist. Die Baseline-Genauigkeit von Qwen für eine einzelne Aufgabe beträgt 74,5 %, im Nebeneinander-Szenario sinkt die Genauigkeit für die zweite Aufgabe direkt auf 58,0 %; die Baseline-Genauigkeit von Gemini beträgt 82,8 %, für die zweite Aufgabe sinkt sie auf 65,8 %. Das "Mehrrunden-Dialog"-Modus löst ebenfalls denselben Mechanismus aus.

Unabhängig von der Situation schränkt das Modell seine kognitive Aufmerksamkeit ein, sobald es sich von der sauberen Einzelaufgabe-Baseline entfernt und der kognitive Raum des Kontexts überfüllt wird.

Genau wie ein Zeitgenosse, der lange Texte nicht mag, bekommt das Modell Kopfschmerzen, wenn es lange Texte sieht, und hört einfach auf zu denken.

03 Das Modell ist nicht verwirrt, es ist einfach zu faul, zu überprüfen

Wo genau wird die Argumentation verkürzt?

Die Forscher haben bei 500 mathematischen Aufgaben den Ort, an dem das Modell unter Baseline- und Lang-Eingabe-Bedingungen zum ersten Mal eine Kandidatenlösung schreibt, frameweise aufgezeichnet. Unter Baseline-Bedingungen betrug der Durchschnitt 925 Tokens, unter Lang-Eingabe-Bedingungen 939 Tokens. Fast kein Unterschied.

Die Geschwindigkeit, mit der das Modell die Lösung findet, ändert sich überhaupt nicht. Was sich wirklich ändert, ist was nach dem Finden der Lösung passiert.

Unter Baseline-Bedingungen hat das Modell eine Wahrscheinlichkeit von 43 %, die Lösung zu überprüfen. Unter Lang-Eingabe-Bedingungen sinkt diese Wahrscheinlichkeit direkt auf 32 %.

Um die Variablen vollständig zu isolieren, haben die Forscher ein "Spielstand-Wiederherstellungs"-Experiment entwickelt. Zunächst lässt man das Modell unter Lang-Eingabe-Bedingungen eine Aufgabe lösen. Nach der Argumentation werden die letzten 50 Tokens entfernt, um einen allgemeinen "Speicherpunkt" zu schaffen. Dann wird diese identische halbfertige Argumentation wieder an das Modell übergeben, damit es weiter schreiben kann. Der einzige Unterschied ist, dass vor der Argumentation drei verschiedene Längen an Störtexten eingefügt werden.

Ohne die Eingabe von Störtexten beendet das Modell in 21 % der Fälle die Überlegung. Wenn 128 Tokens (zwei oder drei Sätze) eingefügt werden, steigt die Rate der Beendigung auf 26 %. Wenn 16.000 Tokens eingefügt werden, gibt das Modell in 46 % der Fälle die Lösung ab und beendet die Arbeit.

Selbst wenn die Argumentation vollständig identisch ist, desto länger der neue Kontext ist, desto eher denkt das Modell: "Das reicht."

Die Wortfrequenzdaten sind noch deutlicher. Das Wort "wait" tritt unter Leerbedingungen in 11 % der Fälle auf, bei 16.000 Tokens sinkt die Häufigkeit auf 5 %. Das Wort "but" fällt von 46 % auf 20 %. Das Wort "maybe" fällt von 23 % auf 9 %. Alle Wörter, die Unsicherheit und Selbstzweifel ausdrücken, werden um die Hälfte oder mehr reduziert.

Ein weiterer interessanter Datenpunkt: Bei 0 Tokens Störung beträgt die Argumentationslänge etwa 8.000 Tokens. Wenn nur 128 Tokens an irrelevanten Inhalten eingefügt werden, fällt die Argumentation auf 6.500 Tokens ab. Die Länge von zwei oder drei Sätzen reduziert die Argumentationstiefe um 18 %. Der Rückgang von 0 auf 128 Tokens ist sogar größer als der Rückgang von 8.000 auf 64.000 Tokens.

Eine äußerst geringe Verschmutzung des Kontexts kann diesen Mechanismus der kognitiven Sparsamkeit auslösen.

Es handelt sich um eine sehr empfindliche Form der Faulheit.

04 Je stärker die Argumentation, desto mehr faulscht das Modell

Was noch schlimmer ist, desto intelligenter das Modell ist, desto mehr faulscht es.

Das Qwen-3.5-27B von Alibaba hat zwei Modi: einen normalen Antwortmodus und einen tiefgründigen Denkmodus. Unter Lang-Eingabe-Bedingungen verkürzt sich die Argumentation im normalen Modus um 19 %, im tiefgründigen Denkmodus um 53 %. Je stärker der Modus, desto stärker wird er komprimiert.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Harness war gerade in Mode, aber es könnte schon bald Geschichte sein.

01

Drei Ebenen an technischen Hilfsmitteln reichen nicht, um die Krise auf der vierten Ebene einzudämmen

02

Mit Shakespeare die Beweise für das Faulheit des Modells finden

03

Das Modell ist nicht verwirrt, es ist einfach zu faul, zu überprüfen

04

Je stärker die Argumentation, desto mehr faulscht das Modell