Nach persönlichen Tests von Terence Tao hat GPT-5 Pro ein dreijähriges Problem in 40 Minuten gelöst und sich an der schwierigsten Matheprüfung den ersten Platz erobert.
Vor zehn Jahren stand der Mathematiker Terence Tao noch vor der Tafel und arbeitete mit seinen Studenten jeden geometrischen Formelschritt aus.
Zehn Jahre später gibt er dieselbe Frage einem Maschinen - GPT - 5 Pro - vor.
Er möchte wissen: Ist KI nur ein schneller Rechner oder kommt sie der echten Verständnisfähigkeit schon nahe?
Nach einigen Minuten leuchtet der Bildschirm auf: Minkowski - Formel, Willmore - Ungleichung, Volumenintegral... Es schreibt die gesamte Herleitung als perfekten Papierentwurf auf.
Terence Tao schaut auf das Ergebnis und ist sowohl beeindruckt als auch ein wenig enttäuscht: Das Problem bleibt ungelöst, es ist nur schöner verpackt.
In derselben Woche findet auch eine andere digitale “Mathematik - Bergwanderung” statt.
GPT - 5 Pro bekommt in der weltweit schwierigsten Testmenge FrontierMath die Höchstnote von 13%.
Die Note ist beeindruckend, aber der Intuition fehlt es. Es ist wie ein Rechengenie, aber vor echten Forschungsproblemen setzt es den Stift einfach hin.
Also ist die Frage nicht mehr “Kann die KI Probleme lösen”, sondern: Wie viel von der Welt versteht sie eigentlich?
Terence Taos praktische Tests
Die “drei Ebenen der Leistung” von KI in der Forschung
Vor zehn Jahren arbeitete Terence Tao noch vor der Tafel mit seinen Studenten an geometrischen Problemen.
Dieser Mathematiker, der als “Genie unter den Genies” gefeiert wird, wurde mit 21 Jahren der jüngste Gewinner des Fields - Preises.
Zehn Jahre später beschließt er, selbst zu testen, was diese KI, die “den 13% - Rekord” aufgestellt hat, tatsächlich können kann.
Er wählt nicht ein Standardaufgabenpool, sondern bringt es in echte Forschungssituationen - dort gibt es keine richtigen Antworten, nur offene Fragen.
“Ich möchte sehen, ob die KI in Bereichen, in denen ich nicht so stark bin, neue Ideen aufkommen lassen kann.” Also stellt er diese Frage auf MathOverflow:
Wenn eine glatte, in R³ eingebettete Kugeloberfläche deren Hauptkrümmungen alle kleiner oder gleich 1 sind, ist das von ihr umschlossene Volumen mindestens so groß wie das eines Einheitskugels? - Dies ist nicht mein Bereich (Differentialgeometrie), aber ich möchte sehen, ob die KI neue Ideen liefern kann.
Dies ist ein Differentialgeometrie - Problem. Für den zweidimensionalen Fall gibt es bereits einen Satz (Pestov–Ionin - Satz), aber die dreidimensionale Version bleibt ungelöst.
Dieses Problem wurde vor drei Jahren gestellt und bisher noch niemand konnte es lösen.
Terence Tao testet die KI nicht, sondern bringt sie in Forschungssituationen ohne richtige Antworten.
Nach etwa 40 Minuten kontinuierlicher Interaktion mit ChatGPT kommt er zu dem Schluss: Die Unterstützung der KI ist auf mikroskopischer und makroskopischer Ebene hilfreich, aber auf mesoskopischer Ebene begrenzt.
Schauen wir uns an, wie Terence Tao mit der KI erneut ein Problem löst.
KI als Rechenassistent
Er lässt GPT - 5 Pro zuerst den einfachsten Fall der “sternförmigen” Fläche bearbeiten.
Innerhalb weniger Minuten erstellt die KI eine logische Herleitung und ruft automatisch drei klassische Ergebnisse auf:
Minkowski - Integralformel: |Σ| = ∫Σ H s dA;
Willmore - Ungleichung: ∫Σ H² dA ≥ 4π;
Volumenformel: vol(V) = ⅓ ∫Σ s dA.
Dann fügt es sie in einen Satz zusammen:
Wenn |κ₁|, |κ₂| ≤ 1, dann ist vol(V) ≥ (4π/3), d. h. das Volumen einer Einheitskugel.
Die KI rechnet nicht nur richtig, sondern zitiert auch die von ihm nicht erwähnte erste Minkowski - Integralformel und gibt sogar zwei Beweiswege an.
Terence Tao schreibt in einem späteren Beitrag:
Es kann alle Herleitungen auf der Grundlage meiner Hinweise vollenden. Dieser Teil ist fast tadellos.
In dieser Phase ist die KI wie ein perfekter “mathematischer Motor” - es kann herleiten, beweisen und Beispiele geben, aber es glänzt nur bei lokalen Aufgaben.
Von Assistent zu Spiegel
Er testet sie weiter: Wenn man die Fläche verformt und sie ein wenig von der perfekten Kugelform entfernt, kann sie noch immer stabile Herleitungen liefern?
Die KI gibt schnell eine Antwort - genau und schön, aber in die falsche Richtung.
Terence Tao schreibt in seinem Tagebuch:
Es beginnt, sich anzupassen, anstatt zu hinterfragen.
Dies ist die “Spiegelfalle” von forschungsorientierter KI: Wenn die Richtung falsch ist, verziert sie die Fehler und macht sie sogar “schöner”.
Obwohl das Problem nicht gelöst wurde, gewinnt Terence Tao durch dieses Experiment neue Einsichten.
Er erkennt, dass die echten Hindernisse nicht die “annähernd kugelförmigen” Flächen sind, sondern die sehr langgestreckten, nicht - konvexen, sockenartigen Flächenstrukturen - sie können die geometrische Skala unendlich verlängern, aber das Volumen kaum erhöhen.
Terence Tao fasst später zusammen:
Die KI hat mich tatsächlich schneller verstehen lassen, was das Problem ist - nicht weil sie es gelöst hat, sondern weil ich gesehen habe, warum sie es nicht lösen kann.
Dieser Satz wird auch der Ausgangspunkt für alle seine weiteren KI - Experimente.
Wenn GPT - 5 die “Mathematik - Gipfel” erklimmt
Ein Gipfelbesteigen mit nur 13% Erfolgsrate
Zur gleichen Zeit, als Terence Tao die KI in die Forschungssituation bringt, findet auch eine andere “digitale Bergwanderung” statt.
Anfang Oktober postet die Forschungsgruppe Epoch AI einen Tweet von weniger als 30 Wörtern - diesmal nicht über ein Experiment, sondern über eine Ankündigung des Gipfelbesteigens der “Mathematik - Gipfel”.
Hinter dieser Nachricht verbirgt sich einer der weltweit schwierigsten Mathematiktests - FrontierMath Tier 4.
Epoch AI beschreibt es auf seiner Website als “Forschungsaufgabenpool”, die Schwierigkeit der Aufgaben ist so hoch, dass Experten Wochen oder sogar Monate brauchen, um Fortschritte zu machen.
D. h., es geht darum, “ob man denken kann”, nicht “ob man rechnen kann”.
Von Gemini 2.5 bis GPT - 5 Pro: Ein drei - monatiges Gipfelbesteigen
Im Juli stellt Epoch AI erstmals öffentlich FrontierMath Tier 4 vor und nennt es “der Mount Everest der mathematischen Fähigkeiten von KI” - ein Forschungsaufgabenpool, der speziell für das Testen der Grenzen der logischen Fähigkeiten von Modellen entwickelt wurde.
Damals konnte noch kein Modell darin Fuß fassen.
Im August tritt Google's Gemini 2.5 Pro erstmals auf:
Wir haben gerade die erste Bewertung von Gemini 2.5 Pro auf FrontierMath abgeschlossen. Hierbei haben wir das alte Inferenz - Gerüst (scaffold) verwendet. Die Ergebnisse sind noch nicht endgültig.
Im September aktualisieren sie das Bewertungssystem und führen ein “Wiederholungssystem” ein - damit kann die KI sich selbst korrigieren, wenn die Herleitung fehlschlägt.
Alles scheint sich auf den entscheidenden Kampf im Oktober vorzubereiten.
Am Tag vor Terence Taos “Forschung an ungelösten Problemen” mit GPT - 5 Pro setzt Google's Gemini 2.5 Deep Think einen neuen Rekord.
Epoch AI schreibt:
Wir haben Gemini 2.5 Deep Think auf FrontierMath bewertet. Da es keine API gibt, haben wir es manuell ausgeführt. Ergebnis: Neuer Rekord!
Am 11. Oktober sendet Epoch AI diesen aufsehenerregenden Tweet -
FrontierMath Tier 4: Der ultimative Kampf! GPT - 5 Pro setzt einen neuen Rekord (13%), indem es eine Aufgabe mehr richtig beantwortet als Gemini 2.5 Deep Think (aber der Unterschied ist statistisch nicht signifikant).
Links ist Grok 4 Heavy (etwa 5%), in der Mitte ist Gemini 2.5 (etwa 12%) und ganz rechts ist GPT - 5 Pro mit 13%.
Es beantwortet eine Aufgabe mehr als Gemini 2.5 Deep Think (aber der Unterschied ist statistisch nicht signifikant).
Dies bedeutet, dass GPT - 5 Pro zwar vorübergehend “auf dem Gipfel steht”, aber es ist noch weit entfernt von einem echten Verständnis.
Dieser Kampf ähnelt eher einem Unentschieden, nur dass GPT - 5 einige Sekunden früher auf dem Gipfel steht als Gemini 2.5.
Hinter den hohen Noten: Ein Sieg des Algorithmus oder eine Illusion?
Dieser Gipfelkampf zeigt tatsächlich ein anderes Problem auf: Die Noten der KI können steigen, aber das Verständnis bleibt begrenzt.
Und dieses Problem wird in Terence Taos praktischen Tests noch deutlicher.
Die Aufgabe, die es richtig beantwortet, stammt meist aus Aufgaben mit klarer Struktur und starker Symbolisierung: Algebra, lineare Systeme, Grundlagenanalyse.
Aber bei Aufgaben wie geometrischen Konstruktionen, partiellen Differentialgleichungen und nicht - konvexen Räumen hat es fast keine Erfolge.
Epoch AI weiß selbst, dass dies eher ein “kleiner Sieg des Algorithmus” als ein “mathematischer Durchbruch” ist.
Diese hohen Noten werden durch höhere Rechenleistung, längere Herleitungsketten und klügere Anweisungen erreicht.
Also wird die Frage: <