Top-Forscher von Anthropic: KI tritt in exponentielles Wachstum ein, hier sind drei Dinge, die Sie verstehen müssen
Am 25. Oktober 2025 gab ein eher zurückhaltender Top-Forscher in Bereich Künstlicher Intelligenz (KI) in einem Podcast seine Einschätzung ab.
Die KI zeigt keinerlei Anzeichen eines Abschwungs. Alle drei bis vier Monate kann das Modell Aufgaben, die doppelt so lang sind, bewältigen.
Der Sprecher war Julian Schrittwieser, ein Kernforscher bei Anthropic. Er hat in der Vergangenheit die Entwicklung von AlphaGo Zero und MuZero bei Google DeepMind geleitet.
Dies war kein populärwissenschaftliches Interview. Er kommt aus einem der führenden Labors und beobachtet eine Realität, die die meisten Menschen noch nicht wahrgenommen haben:
Was die Öffentlichkeit sieht: Die richtigen Antworten auf ein paar Fragen.
Was er sieht: Das Modell beginnt, einen ganzen Arbeitstag lang Aufgaben zu erledigen.
Warum nehmen die Menschen das nicht wahr?
Julian gibt die folgende Antwort: Das menschliche Intuition kann exponentielle Veränderungen nicht verstehen.
(Bildquelle: Julian Schrittwieser's Blogbeitrag "Noch einmal das Verständnis für exponentielles Wachstum vermissen", Link: https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)
Genau wie zu Beginn der Pandemie die Menschen die Ausbreitungsgeschwindigkeit unterschätzten, folgt die KI dem gleichen Weg. Wenn die Fähigkeiten des Modells alle drei bis vier Monate verdoppeln, liegt der Schwerpunkt nicht darauf, wie stark es ist, sondern darauf, ob Sie die drei Dinge verstehen, die gerade passieren.
Abschnitt 1 | Die Dauer der Aufgabenbewältigung ist der Schlüssel
Julian Schrittwieser's berufliche Laufbahn spiegelt fast die Hauptlinien der KI in den letzten zehn Jahren wider.
Er hat AlphaGo dazu gebracht, Lee Sedol zu schlagen und ist der erste Autor von MuZero. Heute ist er bei Anthropic für die Inferenzforschung am Claude-Modell zuständig.
"Der Schlüssel der KI liegt nicht darin, wie viele Fragen sie beantworten kann, sondern darin, wie lange sie kontinuierlich Aufgaben bewältigen kann."
Nach seiner Ansicht ist der Fortschritt der KI keine Reihe von "Funktionsupgrades", sondern die Verlängerung der Dauer der Aufgabenbewältigung. Von Sekunden und Minuten bis hin zu Stunden und sogar Tagen an ununterbrochenen Aufgaben.
Julian erklärt in dem Interview, dass dieser Indikator "task length" (Aufgabenlänge) genannt wird und es der zentrale Standard ist, den sie bei Anthropic intern verwenden, um das "Produktivitätsniveau" des Modells zu messen. Sie haben festgestellt, dass die Aufgabenlänge alle drei bis vier Monate verdoppelt. Das Modell wird nicht wie der Mensch von Müdigkeit beeinträchtigt, kann kontinuierlich denken und handeln, und die Fehlerrate sinkt sogar bei langen Aufgaben.
Er gibt ein Beispiel: Frühere Modelle brauchten ständige Hinweise vom Menschen, um ein Programm zu schreiben. Heute kann Claude bereits ein komplettes Anwendungsmodul eigenständig schreiben, einschließlich der Planung der Struktur, des Aufrufs von Schnittstellen, des Testens und der Reparatur.
Es geht nicht darum, dass es klüger ist, sondern dass es länger und stabiler arbeiten kann.
Genau wie bei einem Marathonläufer ist der Schlüssel nicht die Sprintgeschwindigkeit, sondern die Ausdauer, um das Ziel zu erreichen.
Julian ist der Meinung, dass die Verbesserung dieser "Aufgabenausdauer" interessanter ist als die Anzahl der Parameter. Denn das bedeutet, dass das Modell von einem Werkzeug zu einem Ausführenden wird. Wenn das Modell einen ganzen Arbeitstag lang eigenständig arbeiten kann, kann man es wie einen Kollegen mit Aufgaben betrauen, seinen Fortschritt verfolgen und seine Ergebnisse überprüfen.
Die interne Bewertung von Anthropical für die kontinuierlichen Aufgaben von Claude zeigt, dass das Modell ohne menschliche Eingriffe sechs bis acht Stunden lang kontinuierlich arbeiten kann und einen gesamten Prozess von der Codeentwicklung bis zur Dokumentzusammenfassung bewältigen kann.
Julian betont:
"Wir warten nicht auf die 'Superintelligenz', sondern beobachten, wie die Aufgabenlänge von einer Minute auf einen ganzen Arbeitstag anwächst."
Während die Außenwelt noch darüber diskutiert, ob die KI den Menschen ersetzen wird, fragen die Forscher in den Labors: Wie lange kann es heute arbeiten?
Abschnitt 2 | Claude's zugrunde liegende Fähigkeit ist nicht das Gute-Gedächtnis
"Nicht jedes Modell kann Aufgaben eigenständig bewältigen, und erst recht nicht jedes Modell kann einen ganzen Arbeitstag lang kontinuierlich arbeiten."
Julian erklärt, dass das Wesen von Claudes Fähigkeiten nicht nur ein größeres Sprachmodell ist, sondern eine zusätzliche Fähigkeit, die Zukunft "vorauszuspielen".
"Der Schlüssel hinter Claude ist nicht die Anzahl der Parameter, sondern dass es ein 'Weltmodell' hat, das simulieren kann, was in den nächsten Schritten passieren könnte."
Dieses "Weltmodell" (world model) speichert keine Daten und sagt keine Wörter voraus. Es ist eher wie wenn ein Mensch sich vorstellt: Wenn ich dies sage, wie wird der andere reagieren? Was soll ich dann tun?
Julian sagt, dass ein solches Modell nicht mehr "antwortet", sondern "denkt".
Diese Fähigkeit ist eigentlich eine Technologie, die er bereits in der Zeit von MuZero erkundet hat.
MuZero ist ein Reinforcement-Learning-Modell, das von DeepMind im Jahr 2020 vorgeschlagen wurde. Der größte Durchbruch besteht darin: Es muss keine kompletten Regeln oder Umgebungen kennen, sondern kann nur anhand von Erfahrungen lernen, in seinem Kopf die nächsten Schritte vorherzusagen und diese ständig zu korrigieren.
Als Julian diese Methode zusammenfasste, sagte er:
Der Mensch merkt sich die Welt nicht im Voraus, sondern entscheidet über seine Handlungen, indem er sich das Ergebnis des nächsten Schritts vorstellt. Die KI sollte das auch tun.
Das ist der Unterschied von Claude: Es ist nicht mehr ein Werkzeug zum Generieren von Sätzen, sondern ein Akteur, der Kausalitäten simulieren, Versuche unternehmen und Pfade korrigieren kann.
Um diese "Vorausschau" zu ermöglichen, reicht es nicht aus, nur eine einmalige Vorabtraining durchzuführen, sondern es bedarf eines Reinforcement-Learnings nach dem Training. Der Prozess des Reinforcement-Learnings ist wie das wiederholte Üben eines Modells, bis es lernt, selbstständig zu urteilen und den richtigen Prozess zu gehen.
Das Vorabtraining vermittelt dem Modell das Wissen, das Reinforcement-Learning lehrt es, Aufgaben auszuführen.
Mit anderen Worten, das eine ist "die richtige Antwort zu kennen", das andere ist "den Weg zur richtigen Antwort zu finden". Ohne Reinforcement-Learning kann das Modell, auch wenn es die Antwort kennt, den Weg zur Antwort nicht selbst finden.
Er erwähnt ein Experiment mit Claude: Man gibt dem Modell eine komplexe Aufgabe, wie z.B. das Schreiben eines API-Codes mit Tests, und verlangt, dass es:
- selbst die Schreibweise plant;
- entscheidet, wann welche Funktion verwendet werden soll;
- bei Fehlern selbst debuggt;
- am Ende einen ausführbaren Code ausgibt.
Claude hat es geschafft, und selbst die mehrfachen Fehlerkorrekturen wurden von ihm selbst erkannt und erneut geschrieben.
Diese Fähigkeit stammt aus der Kombination des Weltmodells und des Reinforcement-Learnings: Das Modell ist nicht mehr nur darauf beschränkt, Fragen zu beantworten, sondern kann intern Pfade vorhersagen, Aufgaben zerlegen, Ergebnisse vorhersehen und Fehler korrigieren.
Es hat sich von einem Sprachmodell zu einem Handlungsmodell entwickelt.
Abschnitt 3 | Von der Antwort auf die Aufgabe: Claude kann arbeiten
Was unterscheidet Claude von früheren Sprachmodellen?
Julians Antwort ist sehr einfach:
Claude ist nicht mehr ein Chatbot, sondern ein Ausführender, dem man Aufgaben übertragen kann.
Er sagt, dass sie bei Anthropic Claude bereits nicht mehr als "Frage-Antwort-Maschine" verwenden, sondern ihm echte Aufgaben zuweisen, wie z.B.:
Ein ausführbaren API-Code schreiben
Ein PDF-Dokument mit tausenden von Wörtern lesen, zusammenfassen und die Schlüsselpunkte auflisten
Einen gesamten Dokumentenverarbeitungsprozess ausführen, einschließlich Umformulierung, Formatierung und Zusammenfassung
Wichtig ist, dass Claude diese Aufgaben in Phasen eigenständig erledigt, ohne menschliche Eingriffe. Julian weist darauf hin, dass die in den letzten Jahren in der Branche beliebte "Prompt Engineering" im Wesentlichen darauf besteht, dass der Mensch dem Modell den Weg vorgibt und es ihm nur folgen muss. Aber heute ist die Kernfähigkeit von Claude "Aufgaben übernehmen": Man muss es nicht Schritt für Schritt anleiten, sondern gibt ihm ein Ziel, und es wird selbstständig die Aufgabe zerlegen, ausführen, überprüfen und abschließen.
Dies ist ein Schlüsselmerkmal für die Entstehung eines Agenten.
Es löst keine Aufgaben durch das Gedächtnis, sondern durch kontinuierliches Denken und Handeln.
Er gibt die Beispiele von Claude Code und Claude Agent SDK. Dies sind zwei Schwerpunktmodule, die Anthropic kürzlich intern neu strukturiert hat. Das Ziel ist: Das Modell soll in der Lage sein, lange Prozesse und mehrstufige Aufgaben wie ein digitaler Mitarbeiter zu bewältigen.
Claude Code kann:
Ohne eine vollständige Anforderungsdokumentation ableiten, wie eine Funktion aufgebaut werden soll
- Selbst Debug-Anweisungen in den Code einfügen, um Fehler zu lokalisieren
- Nachdem der Code geschrieben wurde, Testfälle generieren
- Basierend auf den Testergebnissen die Logik automatisch umschreiben
Und Claude Agent SDK geht noch einen Schritt weiter. Es kann komplexere mehrstufige Aufgaben ausführen, wie z.B.:
- Werkzeuge öffnen → Informationen suchen → In das Dokument schreiben → Ausgabe überprüfen → Zwischenergebnisse bereinigen
- Wenn ein Schritt fehlschlägt, wird automatisch der Fehlergrund protokolliert und ein erneuter Versuch unternommen
Julian beschreibt es so: Heute gibt man Claude nicht mehr eine einfache Frage, sondern eine Aufgabenliste.
Und das ist der wesentliche Unterschied zwischen Claude und traditionellen Modellen: Traditionelle Modelle beantworten nur Fragen, sind auf Hinweise angewiesen und können nur eine Runde Interaktion abwickeln; Claude kann dagegen Aufgaben eigenständig zerlegen, mehrstufig ausführen und sich selbst korrigieren.
Es hat sich von einem Werkzeug zu einem Partner, der Ergebnisse liefern kann, entwickelt.
Abschnitt 4 | Einmal richtig zu machen ist einfach, zehnmal richtig zu machen ist schwer
Wenn Claude bereits arbeiten kann, stellt sich die nächste Frage: Kann es jedes Mal die Aufgabe erfolgreich abschließen?
Julians Antwort ist: Nicht unbedingt.
Er sagt, dass dies die realistischste Herausforderung bei der Entwicklung von Agenten heute ist:
Wir befürchten nicht, dass das Modell nicht intelligent genug ist, sondern ob es die Aufgabe stabil abschließen kann, ohne Fehler zu machen und abzuschweifen.
Die KI hat die Fähigkeit, aber wird zu leicht von kleinen Problemen unterbrochen.
Zum Beispiel:
In einem Dokumentenverarbeitungsprozess verarbeitet das Modell die erste Hälfte sehr gut, aber in der zweiten Hälfte stimmt das Format plötzlich nicht mehr.
Beim Ausführen einer Codeumformulierungsaufgabe versteht das Modell am Anfang richtig, vergisst aber später das ursprüngliche Ziel.
Oder wenn ein Schritt fehlschlägt, erkennt das Modell nicht, wo der Fehler liegt, und macht weiter falsch.
Der Kern des Problems besteht darin: Das Vorabtraining vermittelt dem Modell viel Wissen, aber es sagt ihm nicht, "wann man anhalten soll" und "ob dieser Schritt richtig ist".
D.h., das Modell weiß nicht wirklich, was es tut.
An dieser Stelle führt Anthropic "Reinforcement-Learning" und "Verhaltensbelohnung" ein, damit das Modell bei jedem Schritt Feedback bekommt und einen Sinn für die Richtung hat.
Aber dies ist schwieriger als gedacht.
Beim Reinforcement-Learning gibt es eine "Rückkopplungsschleife": Das trainierte Modell wird verwendet, um neue Trainingsdaten zu generieren. Wenn in einem Schritt etwas schief geht, wird die gesamte Kette fehlgeleitet.
Dies unterscheidet sich völlig von dem Vorabtraining. Das Vorabtraining ist wie das Füllen von Lücken, das Ziel ist klar; das Reinforcement-Learning ist eher wie das Finden des Weges durch ein Labyrinth, bei dem man ständig die Richtung korrigieren muss. Ein falscher Schritt kann das Modell von der Spur bringen.
Deshalb beginnt Anthropic, verschiedene Lösungsansätze zu testen.
Der erste Ansatz heißt Prozessbasierte Belohnung (process - based reward).
Man schaut nicht nur darauf, ob das Endergebnis richtig ist, sondern legt für jedes einzelne Schritt des Modells einen Referenzpunkt fest.
Anstatt nur das Modell zu belohnen, wenn es am Ende eine gute Antwort liefert, sollte man es bei jeder Inferenz und jedem Zwischenschritt Feedback geben. Das ist wie ein Lehrer, der nicht nur darauf achtet, ob man die richtige Antwort hat, sondern auch auf den Lösungsweg.
Die zweite Methode ist die Selbstüberprüfung.
Anthropic lässt das Modell in einigen mathematischen und Codeaufgaben nach der Generierung der Antworten selbst überprüfen. Zum Beispiel bei einem Beweis muss das Modell selbst prüfen, ob die Logik fehlerfrei ist, um Punkte zu bekommen.
Dadurch kann die Anzahl der Fälle, in denen das Modell scheinbar richtig, aber tatsächlich falsch arbeitet, erheblich reduziert werden.
Drittens wird in die "Verhaltenskette" des Modells ein Fehlerkorrekturmechanismus eingebaut.
"Ein echtes Zeichen für die Stärke eines Modells ist nicht, dass es keine Fehler macht, sondern dass es weiß, wenn es einen Fehler gemacht hat, und ihn selbständig korrigiert."
Anthropic lässt Claude, wenn während der Aufgabe ein anomales Ergebnis auftritt, die Aufgabe automatisch anhalten, den Fehlergrund protokollieren und den Prozess erneut versuchen. Ähnlich wie wenn man bei der Arbeit ständig Backups anlegt, um im Falle eines Fehlers zurückgehen zu können.
Julian gesteht ein, dass diese Versuche noch in der Anfangsphase sind: Sie erkunden noch, wie man diese Methoden stabiler und skalierbarer machen kann. Dies ist die Hürde, die die Agenten überwinden müssen. Der Schlüssel liegt nicht in der Fähigkeit, sondern in der Zuverlässigkeit und der Stabilität der Ausführung.
Die heutige Herausforderung besteht nicht darin, dass das Modell zu dumm ist, sondern dass es zu leicht durch Fehler von der Spur gebracht wird