Ein Doktorarbeitender hat 80 Stunden lang ohne Schlaf Code korrigiert, während Codex es in nur 2 Stunden geschafft hat. Der Singularitätspunkt der Forschung ist gekommen.
【Einführung】Heute haben die Ingenieure von Agentic AI festgestellt: Ein wissenschaftlicher Forschungsauftrag, den ein Doktor in 80 Stunden erledigen würde, kann Codex in weniger als 2 Stunden abschließen. Der Effizienzunterschied beträgt das 40-fache!
Tatsächlich existierte die AGI bereits nach den alten Standards. Nur bewegt die gesamte Branche ständig die Ziele.
Der 「Singularitätspunkt」 in der Wissenschaft ist tatsächlich gekommen, und näher als alle erwartet haben.
In letzter Zeit hat ein Experiment mit dem Codex 「Zielmodus (Goal Mode)」 die akademische Welt schockiert: Codex kann die Effizienz der wissenschaftlichen Forschung mit KI um das 40-fache steigern!
Der Agentic AI-Ingenieur Dan McAteer hat kürzlich auf X ein Experiment offen gelegt: Ein Forschungsprojekt zur Mechanistischen Interpretierbarkeit wurde mit dem Goal Mode von OpenAI Codex durchgeführt.
GPT-5.5 schätzte selbst, dass ein Doktor diesen Auftrag etwa 80 Stunden benötigen würde. In der Praxis jedoch hat die KI den Auftrag in nur 1 Stunde und 56 Minuten vollständig erledigt.
Die scheinbare Effizienzsteigerung beträgt etwa das 40-fache!
Er hat eine integrierte Funktion in Codex verwendet, nämlich /goal.
Der Autor ist der Meinung:
/goal + gpt-5.5 mit hoher Genauigkeit + Schnellmodus ist die derzeit effizienteste KI-Agenten-Konfiguration.
D.h., dass das Modell selbst Ziele festlegt. Der Schlüssel ist, dass die von ihm erstellten Prompt-Wörter wahrscheinlich besser sind als Ihre.
Das ist nicht einfach eine 「Effizienzsteigerung」, sondern eine völlige 「Dimensionierungsattacke」.
Wenn der Forschungszyklus von Wochen auf Stunden verkürzt wird und die KI beginnt, ihre eigenen Experimentziele (/goal) selbst zu schreiben, müssen wir eine grausame Realität akzeptieren:
Die Steigung der 「Intelligenzexplosion」 ist bereits sichtbar, und die Geschwindigkeit der Selbstiteration der KI entzieht sich zunehmend der menschlichen Kontrolle!
Was genau ist der Codex /goal-Modus?
Schauen wir uns zunächst an, wie dieses Experiment durchgeführt wurde.
Der Initiator des Experiments ist Dan McAteer, ein Agentic AI-Ingenieur und ehemaliger Amp Code-Ingenieur.
Er teilt regelmäßig auf X praktische Erfahrungen in der KI-Agenten-Engineering auf.
Seine Experimentkonfiguration ist einfach:
- Werkzeug: OpenAI Codex /goal-Befehl
- Modell: GPT-5.5 high
- Modus: Schnellmodus
- Auftrag: Ein Forschungsprojekt in Richtung Mechanistische Interpretierbarkeit
Seine eigene Beschreibung dieser Konfiguration lautet: Die derzeit effizienteste KI-Agenten-Konfiguration.
Warum ist der Codex /goal-Modus wichtig?
Das, was wirklich bemerkenswert ist, ist der Codex /goal-Modus selbst.
Laut der Beschreibung des OpenAI Codex-Ingenieurs Philip Corey ist /goal eine Implementierung der Ralph-Schleife – das Ziel bleibt in mehreren Dialogrunden bestehen und wird erst erreicht, wenn es erfüllt ist.
Einfach ausgedrückt: Beim normalen Codex-Aufruf sagst du etwas, es führt einen Schritt aus und antwortet dir.
Beim Codex /goal sagst du ein Ziel an, es teilt das Ziel in Teilaufträge auf, führt sie aus, überprüft sie selbst und setzt fort, bis das Ziel erreicht oder fehlgeschlagen ist.
Dies ist ein Übergang von der dialogbasierten KI zur zielgetriebenen KI.
Für Forschungsprojekte wie die Mechanistische Interpretierbarkeit ist der /goal-Modus von Natur aus gut geeignet.
Der Forschungsablauf besteht aus der Formulierung einer Hypothese, dem Entwurf eines Experiments, der Ausführung, der Auswertung der Ergebnisse, der Korrektur der Hypothese und der Wiederholung des Experiments. Dies kann einem selbstschleifenden Agenten zugeführt werden.
McAteers Experiment beweist tatsächlich, dass der Codex /goal-Modus für wissenschaftliche zyklische Aufgaben einsetzbar ist: Er ersetzt nicht die Forscher, sondern die wiederholenden Aufgaben der Forscher.
Wenn diese Fähigkeit stabilisiert werden kann, hat sie einen sehr direkten Hebelwirkung auf die KI-Forschung selbst.
Das bedeutet, dass KI-Forscher in KI-Laboren in Zukunft KI-Agenten einsetzen können, um wiederholende Aufgaben wie die Vorbereitung von Trainingsdaten, die Einrichtung von Experimenten, die Durchführung von Ablationsstudien, die Erstellung von Visualisierungen und die Analyse von ersten Ergebnissen zu erledigen.
Das ist auch, was Anthropic und OpenAI kürzlich wiederholt betont haben: Die KI beschleunigt die KI-Forschung selbst.
80 Stunden für einen Doktor vs. 2 Stunden für die KI
Im traditionellen wissenschaftlichen Kontext besteht der Alltag eines Doktoranden darin, Literatur zu recherchieren, Modelle zu entwickeln, Code zu debuggen, Ergebnisse zu validieren und Berichte zu schreiben.
Dieser Prozess dauert so lange, weil das menschliche Gehirn bei der Verarbeitung komplexer Logik und einer großen Menge von Daten physikalische Grenzen hat.
Dieses Experiment mit Codex hat diese Vorstellung völlig gebrochen.
Unter der stärksten KI-Agenten-Konfiguration von 「/goal + GPT-5.5 High + Fast Mode」 ist die KI nicht mehr ein 「Befehlsempfänger」, sondern ein unabhängiger Forscher, der 「Strategien entwickelt」.
Sie kann die komplexen Anforderungen an Experimente mit natürlichen Sprachautokodierern (NLA) verstehen, Aufgaben selbst aufteilen und in weniger als 2 Stunden den Weg gehen, den ein menschlicher Eliteforscher zwei Wochen brauchen würde.
Dies bedeutet, dass die wissenschaftlichen Zugangsschwellen für Menschen völlig zusammenbrechen. Die fachliche Analysefähigkeit, die früher Jahre des fleißigen Studiums erforderte, wird nun durch Algorithmen modularisiert.
Außerdem ist der autonome KI-Forscher bereits früher als erwartet da!
OpenAI hatte ursprünglich das Ziel, bis Ende 2026 die autonome KI-Forschung zu erreichen.
Aber angesichts des gegenwärtigen Experimentfortschritts könnte 2026 nicht der Beginn, sondern das Ende sein, an dem die Menschen die wissenschaftliche Forschungsaufgabe völlig an die KI abgeben.
Die rekursive Selbstverbesserung tritt auf
Wenn das 40-fache Geschwindigkeits-Experiment mit Codex ein auffälliges Einzelfall ist, sind die Beweise für die 「rekursive Selbstverbesserung」 immer häufiger.
Am 7. Mai berichtete Axios, dass Jack Clark, Mitbegründer von Anthropic, eine Wahrscheinlichkeit angegeben hat:
Bis Ende 2028 besteht eine Wahrscheinlichkeit von über 60 %, dass die KI eine vollständige rekursive Selbstverbesserung erreicht.
Das Forschungsteam von Sakana AI und der UBC hat dieses Jahr die Darwin Gödel Machine entwickelt, ein Programmieragent, der seinen eigenen Quellcode ändern kann, um seine Fähigkeiten zu verbessern.
Link zur Publikation: https://arxiv.org/abs/2505.22954
Bei der SWE-bench hat es seine Punktzahl von 20,0 % auf 50,0 % selbst verbessert. Ohne menschliche Intervention.
Das AI Scientist-Projekt desselben Teams wurde im März dieses Jahres in der Zeitschrift Nature veröffentlicht.
Es kann selbst Forschungsideen entwickeln, Code schreiben, Experimente durchführen, vollständige Artikel verfassen und Peer-Reviews durchführen.
Ein ganzer wissenschaftlicher Forschungsablauf wird von der KI unabhängig von Anfang bis Ende erledigt.
Schauen wir uns noch einige harte Daten an. GPQA Diamond ist ein wissenschaftliches Fragen-Antwort-Benchmark, das von Doktoren und Experten erstellt wurde. Im November 2023 erreichte GPT-4 eine Punktzahl von 39 %. Der Durchschnittswert von menschlichen Fachexperten liegt bei etwa 65 %.
Im April 2026 haben die führenden Modelle die Marke überschritten: Gemini 3.1 Pro erreichte 94,3 %, Claude Opus 4.7 erreichte 94,2 %.
Alle führenden Modelle haben die menschlichen Doktoren und Experten weit hinter sich