Eine mathematische Challenge, die noch schwieriger ist als die IMO. Google hat OpenAI geschlagen.
Die IMO-Goldmedaille ist schon „veraltet“.
Der von Google entwickelte mathematische Agent Aletheia, basierend auf Gemini 3 Deep Think, hat in der schwierigeren Challenge FirstProof die beste Leistung erzielt.
In der veröffentlichten vollständigen Ergebnistabelle hat Aletheia 6 von 10 Aufgaben ohne menschliche Beteiligung gelöst. Bei 5 Aufgaben stimmten alle Experten überein, und bei einer Aufgabe wurde eine Zustimmung von 5 von 7 Experten erreicht.
FirstProof ist eine Sammlung mathematischer Aufgaben, die von 11 Spitzenmathematikern aus renommierten Universitäten wie Harvard und Stanford speziell zur Prüfung der unabhängigen Forschungskapazität von KI entwickelt wurde.
Die 10 Aufgaben gibt es nirgendwo im Internet, es ist also nicht möglich, sich die Antworten einzuprägen und zu betrügen. Selbst Terence Tao hat es geteilt und gesagt, dass dies sehr interessant sei und man es sich ansehen solle.
Nicht nur Google, auch das interne Modell von OpenAI hat diese Aufgaben bearbeitet und 5 Aufgaben im Wesentlichen richtig gelöst.
Aber! Google hat die gesamte Zeit lang rein durch KI gearbeitet, während OpenAI beim Test menschliche Hilfe in Anspruch genommen hat, um die besten Antworten auszuwählen (doge).
Google hat den kleinen Vorteil
FirstProof wurde von 11 Spitzenmathematikern aus renommierten Universitäten wie Harvard und Stanford erstellt.
Im Gegensatz zu Wettbewerbsaufgaben wie bei der IMO sind die 10 Aufgaben der neuesten Challenge keine standardisierten Wettbewerbsaufgaben, sondern direkt aus den echten Problemen der Mathematiker übernommen und wurden bisher nie veröffentlicht.
Außerdem wurden die Antworten erst nach dem Test der KI veröffentlicht, sodass es der KI nicht möglich war, sich die Antworten einzuprägen und Muster anzuwenden.
Schauen wir uns zunächst die Ergebnistabelle an. OpenAI hat sieben Tage lang gearbeitet und 5 Aufgaben im Wesentlichen richtig gelöst. Diese sind:
4. Ungleichung zwischen der endlichen additiven Faltung und dem harmonischen Mittel von Φₙ;
5. Geometrisches Fixpunktkriterium für O - angepasste Schnittfiltration und Schnittzusammenhang;
6. Große ε - leichte Teilmengen von Knoten;
9. Algebraische Beziehungen zwischen skalierten vierlinearen Determinantentensoren;
10. Kernalisierte CP–ALS - Unterprobleme mit fehlenden Daten: Matrixfreie PCG - Methode basierend auf Kronecker - Vorbedingungen.
Eigentlich hatte OpenAI zunächst eine Ergebnistabelle mit 6 Aufgaben veröffentlicht. Doch wurde bei der Aufgabe 2 (Bestimmung der Nichtverschwindung des Rankin–Selberg - Integrals von GLₙ über nichtarchimedischen lokalen Körpern) wiederholt von der Community auf logische Probleme hingewiesen. Daher hat das Team vorsichtig auf 5 Aufgaben reduziert.
Das Team hat jedoch angegeben, dass es während des Tests die Kommunikation zwischen diesem Modell und ChatGPT menschlich koordiniert hat, um die Überprüfung, die Formatierung und die Stilanpassung vorzunehmen.
Bei einigen Aufgaben ist das endgültige Ergebnis eine menschlich ausgewählte beste Lösung.
Google Aletheia hingegen hat alle 6 Aufgaben autonom gelöst, einschließlich der Aufgabe 2, bei der OpenAI in Zweifel gezogen wurde.
Bei der Expertengutachtung stimmten alle Experten bei den Aufgaben 2, 5, 7, 9 und 10 überein.
Die Aufgabe 7 gilt als die schwierigste Aufgabe in dieser Sammlung. Es ist ein offenes, ungelöstes Problem, das erstmals von dem Team Cappell–Weinberger–Yan gelöst wurde, als die korrekten Lösungen bei der FirstProof - Challenge veröffentlicht wurden.
Bei der Aufgabe 8 wurde zwar nicht einstimmig zugestimmt, aber immer noch eine hohe Punktzahl von 5 von 7 erreicht.
Die entsprechenden Aufgaben sind:
2. Bestimmung der Nichtverschwindung des Rankin–Selberg - Integrals von GLₙ über nichtarchimedischen lokalen Körpern;
5. Geometrisches Fixpunktkriterium für O - angepasste Schnittfiltration und Schnittzusammenhang;
7. Realisierbarkeit der Fundamentalgruppe kompakter Mannigfaltigkeiten von uniformen Gittern reeller halbeinfacher Gruppen mit 2 - Torsion;
8. Existenz einer 4 - Scheitelpunkt - Lagrangian - Glättung von polyedrischen Lagrangeschen Flächen;
9. Algebraische Beziehungen zwischen skalierten vierlinearen Determinantentensoren;
10. Kernalisierte CP–ALS - Unterprobleme mit fehlenden Daten: Matrixfreie PCG - Methode basierend auf Kronecker - Vorbedingungen.
Betrachtet man die Anzahl der gelösten Aufgaben und die Vorgehensweise, hat Google Aletheia nicht nur eine Aufgabe mehr gelöst, sondern hat auch im Vergleich durch die vollständige Autonomie der KI den kleinen Vorteil.
Als nächstes schauen wir uns an, wie Aletheia vorgeht.
KI - autonom: Die beste von zwei Optionen
Zunächst basiert das zugrunde liegende Modell auf dem zuvor IMO - Goldmedaille gewinnenden Gemini 3 Deep Think.
Aletheia verfügt über zwei Versionen des Gemini 3 Deep Think - Modells, A und B, und wählt die beste aus. (A ist die neueste Version von Februar 2026, B ist die Version von Januar 2026.)
Dann gibt es den echten, menschlichen Eingriff - freien Lösungsprozess vom Lesen der Aufgabe bis zum Abgeben der Lösung.
Aletheia kann direkt die unformatierte originale Aufgabe lesen, selbständig schlussfolgern und dann die Antwort ausgeben.
Durch die integrierte Überprüfung und die automatische Extraktion von Hinweisen wird die logische Strenge und das Format der Antwort automatisch überprüft, und schließlich wird die Antwort direkt in LaTeX - Form ausgegeben.
Übrigens, die übrigen 4 unbeantworteten Aufgaben sind nicht falsch gelöst, sondern es wurde einfach „keine Antwort“ gegeben.
Dies liegt daran, dass aufgrund des intelligenten Filtermechanismus, wenn Aletheia keine zuverlässige Lösung generieren kann, das Modell keine ungültigen Antworten erfindet, sondern direkt die Antwort „keine Lösung“ ausgibt.
Aletheia kann auch die Verteilung der Rechenressourcen dynamisch anpassen. Beispielsweise kann es bei der extrem schwierigen Aufgabe 7 automatisch weit mehr Rechenleistung als bei normalen Aufgaben einsetzen und schließlich die Aufgabe lösen, indem der Generator - Subagent mehrere Runden generiert und der Verifier - Subagent streng überprüft.
Bei einfachen Aufgaben wird die Rechenleistung dagegen sinnvoll gesteuert, um eine Verschwendung von Ressourcen zu vermeiden.
Beispielsweise hat Aletheia bei der Aufgabe 10, einer numerischen Aufgabe zur Tensorzerlegung, eine effiziente Methode zur Berechnung des Matrix - Vektor - Produkts angegeben.
Anstatt direkt die Khatri - Rao - Produktmatrix Z in hoher Dimension zu generieren, wird die Komplexität jeder Iteration auf O(qr + n²r) reduziert, indem die benötigten Zeilen dynamisch generiert werden. Dies ist um mehrere Größenordnungen schneller als die traditionelle lineare Lösungsmethode mit O(n³r³).
Google hat in dieser Runde den kleinen Vorteil. Die nächste Aufgabenammlung kommt Mitte März und wird noch schwieriger sein. Mal sehen, was passiert...
Quellenlinks:
[1]https://x.com/lmthang/status/2021644542852968952
[2]https://mathstodon.xyz/@tao/116022211452443707
[3]https://x.com/polynoamial/status/2022527227049742779
Dieser Artikel stammt aus dem WeChat - Account „Liangziwei“. Autor: Verfolgt die neuesten Technologien. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.