Terence Tao ist auch geschockt. o3 hat im ersten Kampf des "AI Mathematik-Olympiads" überwältigend gewonnen. Die Open-Source-Allianz hat OpenAI nur um 5 Punkte hinterher gejagt.
Das "Olympiade-Cup" der KI-Branche ist wieder in Betrieb! OpenAI's o3 hat erstmals an dem Wettbewerb teilgenommen und bei maximaler Rechenleistung direkt mit einer atemberaubenden Punktzahl von 47 Punkten von maximal 50 Punkten den Wettbewerb geschnitten. Interessanterweise liegt die Summenpunktzahl der ersten fünf Modelle nur fünf Punkte hinter o3. Die Lücke zwischen Open-Source- und Closed-Source-Modellen schrumpft erneut.
Im zweiten Wettbewerb der "KI-Olympiade" hat das Team von NVIDIA (NemoSkills) den ersten Platz belegt!
Diesmal hat das Organisationskomitee von AIMO2 die Wettbewerbsaufgaben erneut gestartet. OpenAI's o3 hat bei seinem ersten Wettbewerbsstart die beste Leistung erzielt.
Tao Zhexuan hat begeistert erklärt, dass in der Vergangenheit dieser Wettbewerb auf Open-Source-Modelle beschränkt war und die Rechenressourcen auch recht begrenzt waren.
Glücklicherweise haben NemoSkills, das imagination research-Team von Tsinghua und Microsoft sowie o3 gleichzeitig am zweiten Lauf von AIMO teilgenommen.
Die Tests wurden unter zwei Bedingungen durchgeführt: Einmal mit ähnlichen Rechenressourcen und einmal mit unbeschränkter Rechenleistung.
Das Ergebnis war wie erwartet: Je mehr Rechenleistung zur Verfügung steht, desto besser ist die Leistung des Modells.
Bei unbegrenzter Rechenleistung hat OpenAI's o3 direkt auf 47 Punkte (von maximal 50 Punkten) gestiegen. Selbst wenn man jeder Aufgabe zwei Versuche gibt, könnte es sogar die volle Punktzahl erreichen.
Ein weiterer interessanter Aspekt ist, dass bei gleichen Rechenressourcen der Unterschied zwischen Open-Source- und kommerziellen Modellen eigentlich nicht sehr groß ist.
Heute wurde der vollständige Forschungs- und Testbericht offiziell veröffentlicht.
Berichtslink: https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking
Lasst uns gemeinsam sehen, wie o3 in den konkreten Tests abgeschnitten hat.
Olympiade-niveau-Schwierigkeiten, die Stärke der KI
Für die wissenschaftliche Reproduzierbarkeit ist es von größter Wichtigkeit, dass Open-Source-Modelle weitgehend verfügbar sind. Aber wie groß ist eigentlich die Leistungslücke zwischen Open-Source- und Closed-Source-Modellen?
In der mathematischen Inferenzsituation bietet diese Bewertung ein detaillierteres Verständnis:
Bei mathematischen Inferenzen auf Olympiade-Niveau schrumpft der Unterschied zwischen kommerziellen und Open-Source-KI-Systemen.
Open-Source-Modelle sind kurz davor, die kommerziellen Modelle einzuholen.
Letztes Jahr hat Epoch AI geschätzt, dass die besten heutigen Open-Source-Modelle in Bezug auf Leistung und Trainingsrechenleistung mit Closed-Source-Modellen vergleichbar sind, aber einen Zeitvorsprung von etwa einem Jahr haben.
Der KI-Mathematik-Olympiade (AIMO) wurde 2023 gegründet, um die Entwicklung von Open-Source-KI-Modellen in der höheren mathematischen Inferenz voranzutreiben.
Wettbewerbslink: https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview
Im April 2025 ist der zweite AIMO Progress Prize 2 (kurz AIMO2) beendet.
Die Schwierigkeit der Aufgaben in dieser Phase hat sich weiter erhöht und bezieht sich hauptsächlich auf das Niveau nationaler Mathematik-Olympiaden (z. B. der britischen Mathematik-Olympiade BMO und der amerikanischen Mathematik-Olympiade USAMO).
Die ersten fünf Teams und ihre Punktzahlen in der privaten Rangliste von AIMO2 sind wie folgt (in Klammern die Punktzahlen in der öffentlichen Rangliste):
- NemoSkills: 34/50 (öffentlich: 33/50)
- imagination-research: 31/50 (öffentlich: 34/50)
- Aliev: 30/50 (öffentlich: 28/50)
- sravn: 29/50 (öffentlich: 25/50)
- usernam: 29/50 (öffentlich: 25/50)
Die "öffentliche Rangliste" auf Kaggle ist während des gesamten Wettbewerbs für die Teilnehmer sichtbar. Um eine Datenleckage zu vermeiden, werden die Daten nicht veröffentlicht.
Da wiederholte Bewertungen auf einer einzigen Rangliste (selbst wenn die Aufgaben nicht veröffentlicht werden) möglicherweise indirekt Informationen preisgeben können, bietet Kaggle auch eine "private Rangliste" mit Aufgaben ähnlicher Schwierigkeit an. Diese wird nur am Ende des Wettbewerbs einmalig zur Bewertung der Modelle verwendet, um die endgültige Platzierung zu bestimmen.
Angesichts der deutlichen Erhöhung der Schwierigkeit der Aufgaben im Vergleich zu AIMO1 ist diese Leistung sehr beeindruckend.
Dennoch bleibt eine interessante und entscheidende Frage unbeantwortet: Wie wird sich ein Closed-Source-KI-Modell beim Lösen der Wettbewerbsaufgaben von AIMO verhalten?
Im Vergleich dazu hat AIMO in Zusammenarbeit mit OpenAI und anderen ein Experiment durchgeführt, bei dem die noch nicht veröffentlichte Version o3-preview von OpenAI's o3-Modell auf 50 mathematische Aufgaben olympiadenähnlichen Niveaus aus der öffentlichen Rangliste von AIMO2 angewendet wurde.
Diesmal wurde das allgemeine Modell o3-preview mit den beiden besten Open-Source-Modellen aus dem AIMO2-Wettbewerb verglichen, die speziell für Mathematik optimiert wurden.
Darüber hinaus wurde dieses Mal der Referenzrahmen "AIMO2-combined" eingeführt:
Die Lösungen der besten Modelle von über 2.000 teilnehmenden Teams auf Kaggle wurden zusammengefasst. Wenn mindestens ein Modell eine Aufgabe gelöst hat, wird diese Aufgabe als gelöst gewertet.
Im absoluten Sinne, ohne die Kosten für die Rechenleistung zu berücksichtigen, ist die Version von o3-preview mit hoher Rechenleistung auf der AIMO-Basis nahezu "gesättigt", obwohl es sich um ein allgemeines Modell handelt, das nicht speziell für Mathematik optimiert wurde.
Diese Leistung ist beeindruckend und übertroffen die Erwartungen.
Dies zeigt, dass es immer noch einen deutlichen Unterschied zwischen den stärksten Open-Source- und Closed-Source-Modellen in Bezug auf die Inferenzleistung gibt.
Wenn man jedoch die Kosten für die Rechenleistung berücksichtigt, schrumpft die Lücke deutlich.
Bei der 50-Aufgaben-Basis beträgt die durchschnittliche Kosten pro Aufgabe für die Version von o3-preview mit niedriger Rechenleistung etwas weniger als 1 US-Dollar pro Durchlauf.
Diese Kosten sind höher als die Kosten für das Ausführen aller fünf Sieger-Modelle auf einer eigenen 8xH100-Maschine und vergleichbar mit den Kosten für das Ausführen eines einzelnen Sieger-Modells auf einer kommerziell gemieteten 8xH100-GPU. Obwohl ein genauer Preisvergleich schwierig ist, liegen die Kosten in der gleichen Größenordnung.
Die Summenpunktzahl der ersten fünf Modelle von AIMO2 beträgt 38/50, was fünf Punkte hinter der Version von o3-preview mit niedriger Rechenleistung liegt. Dies zeigt, dass die Inferenzleistung bei Anpassung der Rechenleistung und Beschränkung auf 50 Aufgaben ungefähr gleich ist.
Im Folgenden werden nacheinander die Leistung von o3-preview, die Leistung der Sieger- und Zweitplatzierteams sowie die Gesamtleistung von AIMO2-combined zusammengefasst.
Mit ausreichender Rechenleistung erreicht o3 fast die volle Punktzahl auf einmal
AIMO hat o3-preview unter drei verschiedenen Parametereinstellungen ausgeführt: niedrige Rechenleistung, mittlere Rechenleistung und hohe Rechenleistung.
Diese Einstellungen beeinflussen sowohl die internen Denk- und Inferenzschichten von o3-preview als auch die Hardwarekosten.
Es ist wichtig zu beachten, dass die Versionen mit niedriger und mittlerer Rechenleistung konzeptionell dem gleichen Basis-Modell unter zwei verschiedenen Parametern entsprechen.
Die Version mit hoher Rechenleistung verwendet außerdem eine gelerntes Bewertungsfunktion, um die beste Antwort auszuwählen.
Dieser "Sample-and-Rank"-Mechanismus bei einer festen Sampling-Rate führt zu einer besseren Leistung.
Wie beim Kaggle-Wettbewerb wurden die Tests unter strengen Bedingungen durchgeführt, um sicherzustellen, dass der Testdatensatz der öffentlichen Rangliste frei von Datenkontamination und Informationsleckage bleibt.
Jede Aufgabe wurde nur einmal versucht.
Die Versionen mit niedriger und mittlerer Rechenleistung geben jeweils eine Antwort zurück, während die Version mit hoher Rechenleistung, die den Sample-and-Rank-Mechanismus verwendet, mehrere Antworten zusammen mit einer Bewertung zurückgibt.
Je nach Rechenleistung hat das OpenAI-Modell die folgenden Punktzahlen erreicht:
- o3-preview (Version mit hoher Rechenleistung, erste und zweite Antwort werden berücksichtigt): 50/50
- o3-preview (Version mit hoher Rechenleistung, nur die erste Antwort wird berücksichtigt): 47/50
- o3-preview (Version mit mittlerer Rechenleistung): 46/50
- o3-preview (Version mit niedriger Rechenleistung): 43/50
Selbst wenn man das AIMO2-Sieger-Modell von NemoSkills auf stärkerer Hardware als auf Kaggle ausführt, löst die Version von o3-preview mit niedriger Rechenleistung immer noch sieben Aufgaben mehr.
Die Version mit mittlerer Rechenleistung löst die gleichen Aufgaben wie die Version mit niedriger Rechenleistung und zusätzlich drei weitere Aufgaben, insgesamt 46/50.
Die Version mit hoher Rechenleistung erreicht 47/50 Punkte, wenn nur die erste Antwort berücksichtigt wird, und 50/50 Punkte, wenn auch die zweite Antwort berücksichtigt wird.
Dies zeigt, dass o3-preview prinzipiell in der Lage ist, alle 50 Aufgaben korrekt zu lösen.
Dieses Ergebnis ist vergleichbar mit der kombinierten Punktzahl der besten Modelle aller über 2.000 teilnehmenden Teams auf Kaggle in AIMO2 - auch diese haben insgesamt 47/50 Aufgaben gelöst.
Mit acht H100-GPUs steigt die Leistung der NVIDIA-KI nur um einen Punkt
Die Teams, die zuvor den ersten und zweiten Platz belegt hatten - NemoSkills und imagination-research - haben erneut an der Neubewertung teilgenommen.
Um das volle Potenzial der Modelle besser zu verstehen, hatten die Teams Zugang zu einem Computer mit acht H100-GPUs und insgesamt 640 GB Grafikspeicher.
Im AIMO2 wurden den teilnehmenden Teams Ressourcenbeschränkungen auferlegt, um die Modelle auf der Kaggle-Plattform laufen zu lassen:
Jedes Team erhielt vier L4-GPUs mit insgesamt 96 GB Grafikspeicher (VRAM).
Bei dieser Bewertung hat das Organisationskomitee die Ressourcenbeschränkungen aufgehoben, damit die Modelle ihre volle Leistung bei den 50 Aufgaben aus der öffentlichen Rangliste entfalten konnten.
Wie war das Endergebnis?
· NemoSkills hat 35/50 Punkte erreicht, was eine Verbesserung gegenüber den 33/50 Punkten in der öffentlichen Kaggle-Rangliste darstellt;
· imagination-research hat ebenfalls 35/50 Punkte erreicht, was eine Verbesserung gegenüber den 34/50 Punkten in der öffentlichen Kaggle-Rangliste darstellt.