AI erzeugt AI selbst, Wahrscheinlichkeit 60%, bis Ende 2028 können die Mitgründer von Anthropic es nicht mehr abwarten.
KI-Systeme könnten sich bald selbst aufbauen können!
Derjenige, der diese Aussage gemacht hat, ist Jack Clark, Mitbegründer von Anthropic.
Am 4. Mai schrieb er in einem Beitrag auf X: „Ich glaube, dass die rekursive Selbstverbesserung (RSI) mit einer Wahrscheinlichkeit von 60 % bis Ende 2028 eintreten wird.“
Außer als Mitbegründer von Anthropic ist Clark auch Gründer und Hauptautor von „Import AI“ und verfolgt seit langem die Fortschritte der KI-Fähigkeiten.
Bei diesem Beitrag veröffentlichte er gleichzeitig einen vollständigen Analyseartikel auf „Import AI“.
https://importai.substack.com/p/import-ai-455-automating-ai-research
Dies ist ein großer Vorfall. Ich weiß nicht, wie ich ihn verstehen soll. Dies ist eine Ansicht, die ich ungern akzeptiere: Die Auswirkungen sind zu enorm, dass ich mich klein fühle, und ich bin nicht sicher, ob die Gesellschaft bereit ist, die Veränderungen zu bewältigen, die die automatisierte KI-Forschung mit sich bringt.
Clark schrieb in seinem Artikel: Wenn dieser Tag eintritt, wird die Menschheit eine „Rubikon“ überschreiten und in eine fast unvorhersehbare Zukunft eintreten.
Er glaubt nicht, dass dies 2026 passieren wird, aber er schätzt, dass innerhalb eines oder zweier Jahre möglicherweise bei nicht führenden Modellen ein solcher Proof-of-Concept auftreten könnte: Ein Modell trainiert end-to-end seinen eigenen Nachfolger.
Die Grundlage für Clarks Schlussfolgerungen stammen hauptsächlich aus öffentlichen Informationen: Artikeln auf arXiv, bioRxiv und NBER sowie seiner kontinuierlichen Beobachtung der Produkte von führenden Labors. Mit diesen Informationen hat Clark ein Gesamtbild der KI-Fortschritte zusammengestellt.
Nach seiner Meinung sind heute fast alle Komponenten für die industrielle Produktion von KI vorhanden. Die verbleibende Frage ist: Wann wird ein Modell genug Kreativität angesammelt haben, um wie ein menschlicher Forscher die Forschungsfront voranzutreiben?
Vier Jahre, von 30 Sekunden auf 12 Stunden
Clarks Kernargument sind eine Reihe von Kurven, die die Fortschritte der KI-Fähigkeiten darstellen.
Schauen wir uns zunächst die Zeitachse von METR an.
https://metr.org/time-horizons/
METR ist eine Organisation, die sich auf die Bewertung von KI-Fähigkeiten konzentriert. Sie verfolgt, wie viel Zeit ein KI-System benötigt, um eine Aufgabe unabhängig zu erledigen, wenn ein geübter Mensch diese Aufgabe mit einer Erfolgsrate von 50 % ausführen würde.
2022 betrug der Wert für GPT-3.5: 30 Sekunden;
2023 hat GPT-4 diesen Wert auf 4 Minuten erhöht;
2024 hat o1 ihn auf 40 Minuten gebracht;
2025 hat GPT-5.2 (High-End-Version) ihn auf 6 Stunden erhöht;
2026 hat Claude Opus 4.6 ihn auf 12 Stunden gebracht.
In vier Jahren ist der Wert von 30 Sekunden auf 12 Stunden gestiegen, das ist ein Faktor von 1440!
Der KI-Fähigkeitsforscher Ajeya Cotra glaubt, dass dieser Wert bis Ende 2026 möglicherweise 100 Stunden überschreiten wird.
Wenn dieser Zeitraum von 100 Stunden erreicht wird, kann es viele mehrtägige Software- oder Forschungsunterstützungsaufgaben abdecken.
Auch die Programmierfähigkeiten steigen rapide an.
SWE-Bench misst die Fähigkeit von KI, reale GitHub-Projektprobleme zu lösen. Ende 2023 erreichte Claude 2 einen Score von 2 %. In diesem Jahr hat Claude Mythos Preview 93,9 % erreicht, was diesen Benchmark fast vollständig durchbrochen hat.
CORE-Bench misst etwas anderes: Einem KI-System wird ein Artikel und die entsprechende Code-Basis gegeben, und es soll die Experimentergebnisse unabhängig reproduzieren. Dies ist eine der grundlegenden alltäglichen Aufgaben von KI-Forschern.
Als dieser Test im September 2024 eingeführt wurde, war die beste Leistung 21,5 %. Im Dezember 2025 erreichte Opus 4.5 unter Claude Code scaffold eine verifizierte Genauigkeit von 77,78 %, und nach manueller Überprüfung lag sie bei 95,5 %. Das Projektteam hat erklärt, dass CORE-Bench gelöst ist.
https://hal.cs.princeton.edu/corebench_hard
In 15 Monaten ist der Wert von 21,5 % auf 95,5 % gestiegen.
MLE-Bench misst die Fähigkeit von KI, unabhängig an Kaggle-Wettbewerben teilzunehmen, wobei 75 reale Wettbewerbsprojekte abgedeckt werden.
Bei der Veröffentlichung im Oktober 2024 betrug die höchste Punktzahl 16,9 %. Bis Februar 2026 erreichte die Kombination von Gemini 3 und Suchwerkzeug bereits 64,4 %.
https://github.com/openai/mle-bench
Innerhalb von Anthropic gibt es auch einen Test: Ein Modell soll einen kleinen Sprachmodell-Trainingscode, der nur die CPU nutzt, so schnell wie möglich optimieren, wobei die Geschwindigkeit der nicht optimierten Version als Referenz dient.
Im Mai 2025 erreichte Claude Opus 4: 2,9-fache Verbesserung;
Im November 2025 erreichte Opus 4.5: 16,5-fache Verbesserung;
Im Februar 2026 erreichte Opus 4.6: 30-fache Verbesserung;
Im April 2026 erreichte Claude Mythos Preview: 52-fache Verbesserung.
In weniger als einem Jahr ist der Faktor von 2,9 auf 52 gestiegen.
Dies ist die Geschwindigkeit, mit der KI Fortschritte bei der Optimierung von KI-Trainingscode macht.
99 % der Ingenieurarbeiten werden bald von KI übernommen
Hier gibt es eine Schlüsselfrage: Wie viel von der KI-Forschung ist rein technisches Handwerk und wie viel ist wirkliche Kreativität?
Clark gibt einen Rahmen vor und zitiert Edison: Genialität besteht aus 1 % Inspiration und 99 % Transpiration.
Er meint, dass dies auch für die KI-Forschung gilt.
Einer typischen KI-Forschungszyklus sieht so aus: Man nimmt ein vorhandenes System, erweitert es in einer bestimmten Dimension, beobachtet, wo Probleme auftreten, behebt die technischen Probleme und erweitert es erneut.
In diesem Prozess sind die meisten Arbeiten Datenbereinigung, Experimentieren, Parameteranpassung, Artikel lesen und Ergebnisse reproduzieren. Dies ist „Transpiration“, keine „Inspiration“.
Ab und zu gibt es wirkliche paradigmenverändernde Erfindungen, wie z. B. die Transformer-Architektur oder das Mixture of Experts-Modell (MoE). Aber das ist 1 %, und dieses 1 % wird immer weniger zum Engpass, da die 99 % der technischen Arbeit von KI schnell übernommen werden.
Clark listet einige Anzeichen auf:
KI kann bereits andere KI-Systeme verwalten. In Tools wie Claude Code und OpenCode kann eine einzelne KI als „Projektmanager“ fungieren, Aufgaben an mehrere untergeordnete KI-Systeme verteilen und die Ergebnisse zusammenfassen.
Dies unterscheidet sich im Wesentlichen nicht von der Organisation eines menschlichen Forschungsteams.
PostTrainBench testet, ob eine KI ein offenes kleines Modell selbst feinabstimmen kann, um seine Leistung bei einer bestimmten Aufgabe zu verbessern?
Diese Arbeit wird normalerweise von erfahrenen Forschern in führenden Labors durchgeführt.
Bis März 2026 kann ein KI-System in dieser Aufgabe etwa die Hälfte der Leistung eines menschlichen Forschers erreichen, was einer Verbesserung von etwa 25 % bis 28 % entspricht, während die menschliche Basislinie bei 51 % liegt.
https://posttrainbench.com/
Innerhalb von Anthropic gibt es auch einen Proof-of-Concept für „automatisierte Ausrichtungsforschung“: Ein Team von KI-Agenten soll sich selbstständig mit KI-Sicherheitsforschungsproblemen befassen.
Das Ergebnis ist, dass die von der KI vorgeschlagenen Lösungen die Basislinie der menschlichen Forscher von Anthropic übertreffen.
https://www.anthropic.com/research/automated-alignment-researchers
Clarks Schlussfolgerung, basierend auf diesen Beweisen, ist: KI kann heute bereits den größten Teil der KI-Engineering-Arbeiten automatisieren. Es ist noch nicht ganz klar, wie viel von der KI-Forschung automatisiert werden kann, aber die Anzeichen sind bereits deutlich.
Es gibt auch Zweifel
Nach Clarks Beitrag sind in der Branche einige Zweifel aufgetaucht.
Der Professsor für maschinelles Lernen an der Universität Washington und Autor von „The Master Algorithm“, Pedro Domingos, antwortete: „Seit der Erfindung von LISP in den 50er Jahren kann KI sich selbst aufbauen. Die Frage ist, ob dieser Prozess zunehmende oder abnehmende Renditen bringt – und es gibt derzeit keine Beweise für ersteres.“
Rekursive Selbstverbesserung klingt sehr wissenschaftsfiktiv, aber die Möglichkeit eines Zyklus bedeutet nicht, dass der Zyklus auch rentabel ist. Wenn die Effizienz der Optimierung jeder Generation von KI nur marginal verbessert wird, anstatt exponentiell zu wachsen, wird der Einfluss dieses Vorgangs sehr begrenzt sein.
Andere stellen die Begrenzungslinien des Konzepts in Frage. „Gibt es überhaupt eine autoritative Definition von RSI?“ fragte ein Forscher namens Dan Brickley.
Eine noch schärfere Beobachtung kommt von dem Account @crepesupreme:
30 % in 2027, 60 % in 2028. Ein Anstieg der Wahrscheinlichkeit um 30 Prozentpunkte innerhalb eines Jahres bedeutet, dass zwischen 2027 und 2028 ein diskontinuierliches Ereignis in Bezug auf die Fähigkeiten stattfindet. Was ist dieses spezifische Ereignis?
Clark hat in seinem Newsletter auf diese implizite Frage geantwortet: Er meint, dass die KI-Forschung noch einen kreativen Durchbruch benötigt, um wirklich in den „Selbstforschungszyklus“ einzutreten: Die KI hat bisher keine transformativen Erfolge in diesem Bereich erzielt. Dies ist der Grund, warum er 2027 nur eine Wahrscheinlichkeit von 30 % zuweist; wenn diese Lücke bis Ende 2028 geschlossen wird, steigt die Wahrscheinlichkeit auf 60 %.
Er gibt jedoch auch zu, dass er nur Wahrscheinlichkeiten vorhersagt, nicht genaue Zeitpunkte.
Andere fragten ihn: „Du arbeitest bei Anthropic, warum suchst du dann nach öffentlichen Daten? Geh einfach runter und frage die Forscher.“
Clarks Antwort ist: Er verwendet öffentliche Daten, weil nur öffentliche Daten vertrauenswürdig sind. Er will keine internen Einschätzungen, sondern ein Ergebnis,