Lange Aufgaben sind das einzige Kriterium zur Prüfung des Niveaus eines Agenten.
Das einzige Kriterium zur Beurteilung der Fähigkeiten eines Agenten ist die Bewältigung langer Aufgaben.
Diese Einschätzung basiert auf einer einfachen Tatsache: Kurze Aufgaben können durch das Gedächtnis bewältigt werden, während lange Aufgaben das Verständnis erfordern. Bei kurzen Aufgaben muss das Modell nur die aktuelle Eingabe verarbeiten; bei langen Aufgaben muss es die Kohärenz des Kontexts aufrechterhalten, nach Hunderten von Schritten noch an die ursprüngliche Absicht erinnern und bei Auftreten von Ausnahmen die Strategie eigenständig anpassen.
Die schroffen Daten aus akademischen Benchmarks zeigen uns, dass die bestehenden Spitzen-Agenten bei langen Aufgaben eine Durchfallquote von über 80 % haben und die Codequalität im Laufe der Aufgabeniteration kontinuierlich verschlechtert. Dies ist kein Problem, das durch eine Erhöhung der Parameteranzahl gelöst werden kann, sondern erfordert eine Neukonzeption der Agentenarchitektur, ein systematisches Projekt, das von der Kontextverwaltung bis zur Workflow-Planung, von der Zusammenarbeit mehrerer Agenten bis zur Tiefeabwehr reicht.
Der Wettlauf zwischen Claude und Codex zeigt zwei verschiedene Evolutionswege auf. Claude stärkt die Kontextkapazität und die Fähigkeit zur Zusammenarbeit, während Codex die übermenschliche Fehlersuche und die Selbstentwicklung verbessert. Diese beiden Wege schließen sich nicht gegenseitig aus. Ein Agent, der lange Aufgaben wirklich bewältigen kann, braucht möglicherweise die Stärken beider Ansätze.
Der Aufstieg der Token-Ökonomie bietet einen Ankerpunkt für den kommerziellen Wert von langen Aufgaben. Wenn ein Agent komplexe Aufgaben bewältigen kann, die für Menschen Stunden oder sogar Tage in Anspruch nehmen, wird die Kosten für Millionen von Tokens unbedeutend. Die Frage ist, wie man die Erfolgsquote der Agenten von 20 % auf 80 % steigern kann, wie man die Codequalität bei der Iteration nicht verschlechtern lässt und wie man in der Unsicherheit Stabilität gewährleistet.
Für diese Fragen gibt es keine einfachen Antworten. Eines ist jedoch sicher: Im Frühjahr dieses Agenten-Jahres ist die Fähigkeit zur Bewältigung langer Aufgaben nicht mehr nur ein technischer Indikator, sondern das einzige Kriterium, das "Spielzeug" von "Werkzeug" unterscheidet. Nur wenn ein Agent lange Aufgaben bewältigen kann, hat sein Token Wert, sein Geschäftsmodell Sinn und seine Existenz kann den menschlichen Arbeits- und Lebensfluss neu gestalten.
01
Von kurzen zu langen Aufgaben - die Volljährigkeit des Agenten
Das Jahr 2026 wird von vielen als das "Jahr der Intelligenzagenten" festgelegt. Die wahre Bedeutung hinter dieser Einschätzung ist: Künstliche Intelligenz wandelt sich von einem "Fragebeantwortenden" zu einem "Aufgabenbewältigenden". Der Kern der dritten Welle der KI ist die autonome Ausführung, nicht mehr die unterstützende Rolle eines Copilots.
Dieser Wandel klingt einfach, aber seine Auswirkungen auf der technischen Ebene sind revolutionär.
In den letzten zwei Jahren war die zentrale Erzählung im Wettlauf um die großen Modelle die Fähigkeit des Modells selbst: Wie groß ist die Parameteranzahl, wie tief ist die Inferenz und wie hoch ist die Erfolgsquote bei der Einzelschrittbewältigung komplexer Aufgaben. Diese Indikatoren waren in der Chatbot-Zeit wirksam, denn damals war die Rolle der KI, Fragen zu beantworten. Man fragte, und die KI antwortete, und die Aufgabe endete in einer einzigen Interaktion.
Aber wenn die KI die Rolle eines "Ausführers" übernimmt, ändern sich die Regeln völlig. Eine etwas komplexere Aufgabe, wie die Entwicklung einer Web-Applikation von Grund auf oder die Erstellung eines Datenanalyseberichts über verschiedene Systeme, erfordert Dutzende oder sogar Hunderte von Schritten: Verständnis der Anforderungen, Aufteilung der Aufgabe, Nutzung von Werkzeugen, Behandlung von Ausnahmen, Validierung der Ergebnisse und Selbstkorrektur. Jeder Schritt kann fehlschlagen, und die Fehler akkumulieren.
Das bedeutet, dass die Fähigkeit zur Bewältigung kurzer Aufgaben von allen Modellen erreicht werden kann. Im Wesentlichen ist es nur eine automatisierte Programmierung in Agentenverkleidung. Die Fähigkeit zur Bewältigung langer Aufgaben ist jedoch die eigentliche Eintrittsbarriere für Agenten. Sie misst nicht nur die Inferenzfähigkeit des Modells, sondern auch die Genauigkeit der Kontextverwaltung, die Robustheit der Workflow-Planung und die Fähigkeit zur Behandlung von Unsicherheiten.
Das im Februar 2026 veröffentlichte LongCLI-Bench misst speziell die Fähigkeit von Agenten zur Bewältigung langer Aufgaben in realen Entwicklungsszenarien. Der Testumfang umfasst vier Kategorien von Projekten: Entwicklung von Grund auf, Hinzufügung von Funktionen, Fehlerbehebung und Code-Rekonstruktion. Jede Aufgabe erfordert Dutzende von aufeinanderfolgenden Schritten.
Das Ergebnis ist alarmierend: Selbst die fortschrittlichsten Agenten haben eine Durchfallquote von über 80 %. Noch interessanter ist das Muster des Scheiterns: Die meisten Aufgaben bleiben bereits bei einem Fertigstellungsgrad von weniger als 30 % stecken, und die entscheidenden Fehler treten oft in der frühen Phase auf.
Das bedeutet, dass die besten Agenten derzeit nicht einmal in der Lage sind, einen guten Anfang zu machen, wenn es um echte lange Aufgaben geht.
Sie können in Einzelschrittaufgaben erstaunliche Fähigkeiten zeigen, aber wenn die Aufgabe länger wird, die Abhängigkeiten komplexer werden und eine kontinuierliche Kontextspeicherung und Strategieanpassung erforderlich sind, verlieren sie sich.
Diagramm
Eine weitere Studie namens SlopCodeBench hat tiefere Probleme aufgedeckt. Die Studie verfolgte die Leistung von Agenten bei iterativen Aufgaben und fand ein systematisches Verschlechterungsmuster: Mit zunehmender Anzahl der Aufgabeniterationen sinkt die Qualität des vom Agenten generierten Codes kontinuierlich. In 80 % der Fälle tritt eine strukturelle Erosion auf, und in fast 90 % steigt der Anteil an redundanten Code.
Das Forschungs-Team verglich den Agenten-Code mit dem Code aus 48 Open-Source-Python-Repositories und stellte fest, dass der Agenten-Code 2,2-mal so redundant ist wie der menschliche Code und die strukturelle Erosion deutlich stärker ist. Wenn man die Entwicklung von 20 Code-Repositories im Laufe der Zeit verfolgt, bleibt die Qualität des menschlichen Codes stabil, während der Agenten-Code bei jeder Iteration schlechter wird.
Diagramm: Der Redundanzgrad des Agenten-Codes steigt kontinuierlich mit der Anzahl der Iterationen, während der menschliche Code stabil bleibt. Datenquelle: SlopCodeBench, März 2026.
Diese Entdeckung zeigt ein grundlegendes Problem auf: Die aktuellen Agenten fehlt die Fähigkeit, in komplexen Aufgaben die strukturelle Konsistenz aufrechtzuerhalten und nicht von kurzfristigen Anforderungen abgelenkt zu werden. Diese Fähigkeit ist jedoch der Kern für den Erfolg bei langen Aufgaben.
02
Claude und Codex - zwei Wege zu langen Aufgaben
Im Wettlauf um die besten KI-Programmierwerkzeuge bietet der Wettstreit zwischen Claude und Codex das beste Fenster, um die Entwicklung der Agentenfähigkeiten zu beobachten.
Am 5. Februar 2026 veröffentlichten Anthropic und OpenAI am gleichen Tag ihre Spitzenmodelle: Claude Opus 4.6 und GPT-5.3-Codex. Dieser direkte Konfrontation scheint auf den ersten Blick ein Leistungswettlauf zu sein, ist aber tatsächlich eine unterschiedliche Auffassung von den Kernfähigkeiten eines Agenten.
Claudes Weg: Langzeitkontext und Teamzusammenarbeit
Die wichtigste Verbesserung von Claude Opus 4.6 ist die Erhöhung des Kontextfensters von 200.000 Tokens auf 1 Million Tokens. Das bedeutet, dass man die gesamte Codebasis eines Projekts auf einmal eingeben kann, und das Modell kann alle Dateien im Projekt sehen und die Gesamtarchitektur verstehen.
Das eigentliche Trumpfkarte ist jedoch nicht einfach der lange Kontext, sondern die feinsinnige Gestaltung von Anthropic bei der "Kontextaufteilung". Der ehemalige Kernentwickler von OpenAI Codex, Calvin French-Owen, sagte in einem Podcast, dass das stärkste Merkmal von Claude Code seine Fähigkeit zur Kontextaufteilung sei.
Bei der Bewältigung komplexer Aufgaben erzeugt Claude Code automatisch mehrere explorative Sub-Agenten. Diese Sub-Agenten scannen mit Werkzeugen das gesamte Dateisystem, suchen nach relevantem Inhalt, und jeder Sub-Agent hat ein eigenes Kontextfenster. Nach Abschluss der Aufgabe geben sie die wichtigen Informationen an den Haupt-Agenten zurück.
Die Bedeutung dieser Gestaltung liegt darin, dass das "Kontextrauschen" erheblich reduziert wird.
In einer Codebasis, in der die Informationsdichte sehr hoch ist, sind nicht alle Informationen gleich wichtig. Claudes Strategie besteht darin, dass spezielle Sub-Agenten erkunden, filtern und zusammenfassen und nur die wichtigsten Informationen an den Haupt-Agenten weitergeben. Dieses Modell der Arbeitsteilung und Zusammenarbeit ermöglicht es dem Haupt-Agenten, sich auf die strategischen Entscheidungen zu konzentrieren, ohne von den Details untergegangen zu werden.
Diagramm: Die Kontextkapazität steigt um das 5-fache, die Fähigkeit zur Suche nach wichtigen Informationen steigt um das 4-fache. (Claude Opus 4.6 vs. Vorgänger); Datenquelle: Anthropic offizieller Technischer Bericht.
Codexs Weg: Übermenschliche Fehlersuche und Selbstentwicklung
Im Vergleich dazu hat OpenAIs GPT-5.3-Codex einen anderen Weg gewählt. Calvin French-Owen sagte: Codex hat eine starke "Persönlichkeit", ähnlich wie AlphaGo. Bei der Fehlersuche in komplexen Problemen ist es übermenschlich gut. Viele Probleme, die die Opus-Modelle nicht lösen können, kann Codex bewältigen.
Das Kernmerkmal von Codex ist seine "Selbstkonstruktionsfähigkeit". Es ist das erste Modell von OpenAI, das sich selbst hilft, sich zu bauen. Das Codex-Team nutzt Codex, um seinen eigenen Trainingsvorgang zu debuggen, seine eigene Bereitstellung zu verwalten, die Testergebnisse zu diagnostizieren und zu bewerten. Dieser Feedback-Zyklus, in dem die KI sich selbst erzeugt, bedeutet, dass die Evolutionsgeschwindigkeit immer schneller wird.
In der Produktphilosophie konzentriert sich OpenAI stärker auf die Entwicklung des stärksten großen Modells (d. h. der AGI). Dies spiegelt sich in der Gestaltung von Codex wider: Es strebt nicht nach der elegantesten Interaktion oder dem transparentesten Entscheidungsprozess, sondern danach, in den schwierigsten Debugging-Szenarien Lösungen zu finden, die der Mensch nicht findet.
Die Essenz der beiden Wege
Der Wettlauf zwischen Claude und Codex zeigt zwei Dimensionen der Kernfähigkeiten eines Agenten auf.
Die erste Dimension ist die Kontextkapazität. Claude Opus 4.6 hat in der MRCR v2-Testung (die speziell die Fähigkeit von KI zur Suche nach Informationen in einer großen Menge an Text misst) einen Score von 76 %, während Sonnet 4.5 nur 18,5 % erreicht. Dieser Unterschied zwischen 76 % und 18,5 % ist nicht nur eine quantitative Veränderung, sondern eine qualitative. Es bedeutet, ob ein Agent in langen Aufgaben die wichtigen Informationen aus der frühen Phase behalten kann und ob er nach Hunderten von Schritten noch an das ursprüngliche Ziel erinnern kann.
Die zweite Dimension ist die Qualität des Kontexts. Calvin French-Owen teilte eine sehr praktische Erfahrung: Wenn der Token-Bedarf im Kontext mehr als 50 % erreicht, räumt er ihn aktiv auf. Er verwendet eine "Kanarienvogel-Testmethode" - er versteckt im Kontext einige unwichtige, aber überprüfbare Informationen. Sobald das Modell beginnt, diese Informationen zu vergessen, bedeutet das, dass der Kontext kontaminiert ist.
Die Kombination dieser beiden Dimensionen bildet die Kernformel für die Fähigkeit eines Agenten zur Bewältigung langer Aufgaben:
Fähigkeit zur Bewältigung langer Aufgaben = Kontextkapazität × Kontextqualität
Ohne Qualität kann der Agent sich in der Informationsflut verlieren; ohne Kapazität kann er keine echten komplexen Aufgaben bewältigen.
03
Nur Agenten, die lange Aufgaben bewältigen können, haben wertvolle Tokens
Wenn Agenten mit langen Aufgaben beginnen, wandelt sich die Rolle der Tokens von einem technischen Nebenprodukt zu einem strategischen Vermögen.
Tokens werden zur "neuen Rohware" der KI-Zeit - standardisiert, messbar und handelbar. Die Erfahrung von Xia Lixue, Mitbegründerin von Wuwenxinqiong, ist repräsentativ: Seit Januar 2026 verdoppelt sich der Token-Verbrauch der Firma alle zwei Wochen und hat bisher um das 10-fache zugenommen.
Diese Wachstumsrate war das letzte Mal in der Zeit des 3G-Mobilfunkverkehrs zu beobachten. Aber die Bedeutung ist völlig unterschiedlich: Das Wachstum des 3G-Verkehrs repräsentiert die Verlagerung des Benutzerverhaltens, während das Wachstum des Token-Verbrauchs die AI-Sierung der wirtschaftlichen Aktivitäten selbst darstellt.
Das Jinduan Research Institute hat bereits 2025 diesen Trend erkannt und in seinem Artikel "Tokens werden die wichtigste Ressource der Zukunft" erstmals den Konzeptrahmen der "Token-Ökonomie" vorgeschlagen, der feststellt, dass Tokens als die grundlegende Maßeinheit für den Wert in der Intelligenzzeit die Logik der Ressourcenallokation neu gestalten werden.
Auf der GTC-Konferenz 2026 hat Huang Renxun offiziell das Konzept der "Token-Ökonomie" vorgestellt, wodurch dieses Konzept breiter bekannt wurde. Agenten sind heute die zentralste Arbeitslast der großen Modelle, und Tokens sind das zentrale Produktionsfaktor der digitalen Wirtschaft. Die Nationale Datenbehörde hat im März 2026 die offizielle Übersetzung von "Token" in "Wortelement" festgelegt und festgestellt, dass es der "Wertankerpunkt der Intelligenzzeit" ist.
Es besteht eine positive Korrelation zwischen dem Token-Verbrauch und der Länge der Aufgabe. Wichtiger ist jedoch, dass die Wertdichte der Tokens mit der Länge der Aufgabe zunimmt.