In 12 Stunden wurde ein 42-jähriges Problem gelöst, und KI rückt einen Schritt näher an die AGI.
Ein Problem, das die Mathematikwelt 42 Jahre lang geplagt hat, wurde gelöst.
Nicht in einem Spitzenforschungszentrum und auch nicht durch eine frisch veröffentlichte Studie, sondern in einem dreitägigen, insgesamt etwa 12-stündigen Mensch-Maschine-Dialog.
Am 28. April 2026 erinnerte sich Ernest Ryu, ein Senior-Forscher bei OpenAI, in einem OpenAI-Podcast an diese Episode: Er sprach wiederholt mit ChatGPT, wies ständig die Fehler des Modells aus und korrigierte die Richtung, um schrittweise dem Ergebnis näher zu kommen. Dieses Problem über die Konvergenz eines klassischen Optimierungsalgorithmus war in den vergangenen 42 Jahren niemandem gelungen, eine klare Antwort zu geben. Erst als ein vollständiger Beweis vorlag, überprüfte Ryu ihn manuell und ließ das Modell es ebenfalls nachprüfen. Das Ergebnis war fehlerfrei.
"Ohne diese Tools hätte ich möglicherweise drei Monate oder sogar länger gebraucht."
In demselben Dialog sprach auch Sébastien Bubeck darüber: Das Modell hat auf dem internationalen Mathematik-Olympiade-Niveau Spitzenleistungen erreicht und beginnt auch bei einigen forschungsrelevanten Problemen, nützliche Unterstützung zu leisten. Es kann sogar bestehende Ergebnisse aus verschiedenen Bereichen miteinander verbinden und Wege einschlagen, die von den Vorgängern nicht beschritten wurden.
Die Grenzen der KI-Fähigkeiten werden tatsächlich vorangetrieben. Dies ist ein Signal, das im Prozess der künstlichen allgemeinen Intelligenz (AGI) ernst genommen werden muss.
Abschnitt 1 | Von Werkzeug zu Teilnehmer
Zunächst ein Bezugssystem aufstellen.
Anfang 2025 war das Modell noch nicht in der Lage, Dinge wie: Drei Leute gehen in den Campingurlaub und haben ein Dutzend Ausgabenposten. Hilf mir, herauszufinden, wie viel jeder zahlen muss; oder drei Personen aus verschiedenen Zeitzonen wollen eine Zoom-Konferenz vereinbaren. Hilf mir, einen passenden Zeitpunkt zu finden. Diese scheinbar einfachen Aufgaben konnten die damaligen Modelle nicht zuverlässig erledigen.
Im selben Jahr wurde ein seit 42 Jahren offenes Problem in der Mathematikwelt in einem 12-stündigen Mensch-Maschine-Dialog gelöst.
Dieser Wandel lässt sich nicht allein dadurch erklären, dass das Modell schlauer geworden ist. Tatsächlich nahm Sébastien Bubeck vor etwa anderthalb Jahren an einer Debatte auf einer wissenschaftlichen Konferenz teil, deren Thema war: Können erweiterte Sprachmodelle helfen, offene Probleme der Mathematik zu lösen? Bei der Anfangsabstimmung waren 80 % der Teilnehmer der Meinung, dass dies nicht möglich sei. Nach der Debatte war die Stimmung 50:50. Und erst acht Monate später begann das Modell, forschungsrelevante Mathematik zu betreiben.
Dies ist kein einfacher Frage-Antwort-Prozess. Das Modell gibt nicht auf einmal die Antwort und folgt auch nicht einem stabilen Pfad. Der gesamte Prozess ist hin und her: Ideen werden vorgeschlagen, Argumente entwickelt, Lücken entdeckt, der Pfad korrigiert, weiter gefragt und erweitert.
Dies entspricht eher dem echten Forschungsstatus.
Frühere Modelle, auch wenn sie komplexe Probleme lösen konnten, blieben im Wesentlichen auf der Ebene der Ergebnisausgabe. Jetzt beginnt es, in den Prozess selbst einzutreten. Die Fortschrittsmethode der Forschung besteht darin, in wiederholten Versuchen schrittweise näher an das Ziel zu kommen, anstatt direkt von der Frage zur Antwort zu springen. Sobald das Modell in diesen Prozess eintritt, ändert sich seine Rolle von Werkzeug zu Teilnehmer.
Zur gleichen Zeit, als das Forschungs-Team versuchte, ein paar seit langem ungelöste mathematische Probleme mit dem Modell zu bearbeiten, stellten sie fest, dass einige Antworten bereits in bestehenden Ergebnissen verschiedener Bereiche verborgen waren, aber nie miteinander verbunden wurden. Das Modell findet durch umfangreiche Suche und logische Schlussfolgerungen in der riesigen Wissensmenge nutzbare Hinweise und stellt Verbindungen her. Auf dieser Grundlage beginnen neue Ergebnisse aufzutauchen.
Deshalb ist dieser Fall nicht nur ein erfolgreicher Problemlöseversuch, sondern markiert auch den offiziellen Eintritt der KI in den echten Forschungsprozess.
Abschnitt 2 | Länger denken, um echte Durchbrüche zu erzielen
Wenn man dies einfach als plötzlichen Leistungsanstieg des Modells interpretiert, ist es leicht, zu dem falschen Schluss zu kommen, dass dies das Ergebnis eines einzelnen technologischen Sprungs ist. Aber Sébastien Bubeck gibt in einem Interview genau das Gegenteil als Erklärung an. Kein einzelner Faktor kann alles erklären. Diese Veränderung ist die konzentrierte Manifestation der Überlagerung mehrerer Fähigkeiten zur gleichen Zeit.
Unter all diesen Fähigkeiten liegt der wichtigste Durchbruch darin, dass das Modell nun in der Lage ist, längere Zeit konsequent zu argumentieren und dabei die logische Kette zu halten.
Warum ist dies so wichtig? Bei der Mathematik und auch in der breiteren Wissenschaft liegt die Schwierigkeit oft nicht in einem einzelnen Schritt, sondern darin, dass die gesamte Ableitungskette stimmig bleiben muss. Sobald an einer Stelle ein Fehler auftritt, verliert alles Folgende seine Bedeutung. Das erfordert, dass die Argumentation über einen langen Zeitraum kontinuierlich überprüft und korrigiert wird. Es reicht nicht, einfach vorwärts zu gehen. Frühere Modelle haben bei kurzen Schritten gut abgeschnitten, aber sobald die Argumentationskette länger wird, neigen sie dazu, abzuweichen und es ist schwierig, bei komplexen Aufgaben voranzukommen.
Um zu verstehen, wie groß dieser Wandel ist, können wir vier Jahre zurückgehen. Um 2022 veröffentlichte Google das mathematische Modell Minerva. Sébastien Bubeck erinnert sich, dass er damals fast von seinem Stuhl springen wollte. Der Grund war einfach: Wenn man dem Modell die Koordinaten einiger Punkte auf einer Ebene gibt, kann es eine Gerade zeichnen, die durch diese Punkte verläuft.
In der Technologiebranche entsteht allmählich ein neues Maßstab: "AGI-Zeit". Sie misst nicht mehr, wie schlau ein Modell ist, sondern wie lange es kontinuierlich denken kann. Vom Anfang, als es nur einfache Probleme von wenigen Sekunden bearbeiten konnte, über die Fähigkeit, einige Minuten lang zu argumentieren, bis heute, wo es Stunden oder sogar Tage lang um ein Problem herum forschen kann.
Ernest Ryu macht in einem Interview einen Vergleich mit Codex. Codex kann in einem langen Arbeitszyklus riesige Coderepositories bearbeiten. Durch kontinuierliche Komprimierung und Organisation der Gesprächsaufzeichnungen kann es komplexe Aufgaben in der kontinuierlichen Interaktion vorantreiben. Ryu meint, dass die Mathematikforschung auf demselben Weg gehen wird: Mathematische Notizen entsprechen dem Coderepository, und der Argumentationsprozess entspricht einem langfristigen Arbeitsgespräch. Das Modell muss nicht alle Ableitungen in einem einzigen Gespräch abschließen. Es kann wie ein menschlicher Forscher heute einen Teil vorantreiben, es in Notizen fassen und nächste Woche weiter machen. Schließlich kann es Monate langer Überlegungen in einer Studie zusammenfassen.
Wenn man dieser Logik folgt, wenn das Modell die Stabilität der Argumentation über einen längeren Zeitraum, wie Wochen oder sogar länger, aufrechterhalten kann, wird sich die Art der Probleme, die es bearbeiten kann, grundlegend ändern. Viele Forschungsaufgaben, die lange Zeit überlegt werden müssen, werden allmählich in seinen Fähigkeitsbereich fallen.
Um näher an der AGI zu sein, muss man nicht auf einen plötzlich auftauchenden Wendepunkt warten. Ein realistischerer Weg ist die kontinuierliche Verlängerung der Denkzeit: Von kurzfristigen Reaktionen über kontinuierliche Argumentation bis hin zu langfristigem Denken, das dem menschlichen Forschungsrhythmus ähnelt.
Bestimmt werden die Grenzen der KI-Fähigkeiten nicht nur dadurch, was es kann, sondern auch dadurch, wie lange diese Fähigkeiten aufrechterhalten werden können.
Abschnitt 3 | Die Wissenschaft wird neu organisiert
Die Mathematik ist nur ein Fachgebiet, das am frühesten von den KI-Fähigkeiten betroffen ist. Was es wirklich zu beachten gilt, ist, wie die Arbeitsweise der gesamten Wissenschaft verändert wird, wenn diese Fähigkeiten verbreitet werden.
Der erste Aspekt ist die Prüfungsweise des Wissens. Das Bubeck-Team hat eine Vielzahl veröffentlichter mathematischer Studien getestet und festgestellt, dass es eine beträchtliche Anzahl von Fehlern gibt, einige kleine, einige grundlegende Lücken. In der Vergangenheit dauerte es oft Jahre, bis eine 300-seitige Beweisstudie vollständig überprüft wurde. In der Zwischenzeit konnte sich der gesamte Bereich auf einer falschen Schlussfolgerung weiterentwickeln. Jetzt kann die KI diesen Prüfzyklus erheblich verkürzen. Die Zuverlässigkeit des bestehenden Wissenssystems wird neu überprüft.
Der zweite Aspekt ist der Ausgangspunkt der Forschung. Das Modell beginnt nicht nur, Fragen zu beantworten, sondern auch, Fragen zu stellen. Im Interview wurde erwähnt, dass das interne Modell bereits qualitativ hochwertige Forschungsannahmen generieren kann, so gut, dass menschliche Forscher glauben, dass diese Richtung es wert ist, eine eigene Studie zu schreiben. Wenn der Schritt des Fragestellsens auch von KI stark unterstützt werden kann, wird die Kernfähigkeit, die die Forscher wirklich behalten müssen, die Fähigkeit, zu beurteilen, welche Fragen sich lohnen, ob man an kritischen Punkten Entscheidungen treffen kann und ob man erkennen kann, welche Richtung einen echten Durchbruch verspricht. Dies sind genau die Teile, die das Modell derzeit am schwierigsten ersetzen kann.
Naturgemäß bringt diese Umstrukturierung nicht automatisch eine Verbesserung der Forschungsergebnisse mit sich. Übermäßige Abhängigkeit vom Modell kann dazu führen, dass Forscher nur auf der Oberfläche der Ergebnisse verbleiben und die Fähigkeit, tiefer in die Ableitung einzutauchen, verlieren. Je stärker das Werkzeug ist, desto höher ist die Anforderung an die Urteilsfähigkeit des Benutzers.
Langfristig wird die wissenschaftliche Forschung einer großen Umstrukturierung der Arbeitsteilung unterzogen. Die KI kann immer mehr der repetitiven Ableitungsarbeit übernehmen, während die Anforderungen an die Entscheidung, was zu tun ist und wohin man gehen soll, steigen. Der Kernwert der Forscher verschiebt sich von der Ausführung zur Entscheidung.
Als der Computer erfunden wurde, prophezeite man, dass es in der Mathematikwelt keine schwierigen Probleme mehr geben würde. Tatsächlich hat die Berechnung selbst völlig neue Forschungsgebiete eröffnet, und die schwierigen Probleme sind nur zugenommen. Die heutige Logik ist ähnlich: Je stärker das Werkzeug ist, desto mehr Fragen sind es wert, nachgefragt zu werden, und desto seltener sind die Menschen, die gute Fragen stellen können. Diese Veränderung wird nicht auf das mathematische Gebiet beschränkt. Materialwissenschaft, Biologie und alle anderen Fächer, die umfangreiche Ableitungen und Verifikationen erfordern, solange die Probleme eine klare Struktur haben, werden allmählich von der KI mitbearbeitet.
Die KI beschleunigt den Rhythmus der Wissenschaft. Was sich nicht ändert, ist die Tatsache, dass die Richtung der Wissenschaft von Menschen definiert werden muss.
Schlusswort | Die Richtung liegt immer noch bei den Menschen
Ein Problem, das 42 Jahre lang keine Antwort hatte, hat in 12 Stunden ein Ergebnis gebracht. Dies ist kein Ende, sondern nur ein neuer Anfang.
Was den Abstand wirklich verkürzt, ist, dass das Modell nun in der Lage ist, über einen längeren Zeitraum eine kohärente Argumentation aufrechtzuerhalten und in den Forschungsprozess selbst einzutreten. Dies ist wichtiger als jeder einzelne Durchbruch.
Das Werkzeug ersetzt immer mehr der Ausführung. Die einzige verbleibende Frage ist: Kannst du die Ergebnisse verstehen und hast du die Fähigkeit, die nächste bessere Frage zu stellen?
Das Denken wird beschleunigt, aber die Wahl liegt immer noch bei den Menschen.
Original-Link:
https://www.youtube.com/watch?v=9-TVwv6wtGQ&t=846s
Quelle: Offizielle Medien/Online-Nachrichten
Dieser Artikel stammt aus dem WeChat-Account "AI Deep Researcher", Autor: AI Deep Researcher, Redakteur: Deep Thought, veröffentlicht von 36Kr mit Genehmigung.