Gemini holt erneut eine Goldmedaille und schlägt die besten Studenten der Universität. Die Ära der mathematischen Schlussfolgerung durch KI ist da.
Der Goldmedaille des Gemini in der Olympiade der Mathematik ist voll und ganz verdient! Ein Doktorand der ETH Zürich hat in der Internationalen Mathematikmeisterschaft für Studenten (IMC) drei Modi von Gemini getestet. Seine Leistung lag weit über der Schwelle für die Goldmedaille (obere 8 %), weit über der durchschnittlichen Leistung von Studenten.
Schneiden Studenten in Mathematik schlechter ab als KI?
Kürzlich hat Jasper Dekoninck, ein Doktorand am SRI-Labor der Eidgenössischen Technischen Hochschule Zürich, auf MathArena ein neues Rennen gestartet: die Internationale Mathematikmeisterschaft für Studenten (IMC).
Am Ende hat das Sprachmodell (LLM) mit hohen Punkten gewonnen: Das Sprachmodell hat die internationale Mathematikmeisterschaft gewonnen.
Gemini liegt weit über dem Niveau durchschnittlicher Studenten
Der Internationale Mathematikolympiade (IMO) gilt seit langem als Meilenstein für die mathematische Schlussfolgerungsfähigkeit von KI-Systemen.
Kürzlich haben Google, OpenAI und andere kürzlich angekündigt, dass ihre LLM in der IMO Goldmedaille gewonnen haben.
Aber aufgrund der Undurchsichtigkeit der gewinnenden KI-Systeme und der begrenzten Interpretierbarkeit ihrer Ergebnisse haben diese Goldmedaillen zahlreiche Zweifel und Aufmerksamkeit ausgelöst.
Bei dieser Evaluierung auf MathArena wurde erstmals die Leistung von KI in der Mathematikmeisterschaft für Studenten bewertet. Dies diente nicht nur dazu, zu beweisen, dass KI tatsächlich in der Lage ist, eine Goldmedaille in der IMO zu gewinnen, sondern auch, um zu überprüfen, ob die hervorragende Leistung von KI in Wettbewerben auf Oberschulniveau (wie der IMO) in Wettbewerben auf Universitätsniveau erfolgreich umgesetzt werden kann.
Insgesamt wurden drei Systeme in diesem Test bewertet: Gemini Deep Think IMO (Goldmedaillengewinner der IMO 2025), Gemini - 2.5 - Pro und die Gemini - 2.5 - Pro Best - of - 32 - Basislinie.
Da das Modell von OpenAI, das die Goldmedaille gewonnen hat, noch nicht veröffentlicht wurde, konnte es nicht bewertet werden.
Die Testergebnisse zeigen, dass alle drei Systeme extrem hohe Punktzahlen erzielt haben, weit über der Schwelle für die Goldmedaille (obere 8 %).
Sowohl Gemini Deep Think als auch Gemini Agent haben alle Probleme erfolgreich gelöst, wobei nur wenige kleine Fehler auftraten. Diese Fehler resultierten normalerweise aus unvollständigen Argumentationen in Zwischenschritten oder fehlerhaften Zitaten bekannter Sätze.
Interessanterweise hat das Gemini Best - of - 32 in der IMC eine viel bessere Leistung erzielt als in der IMO 2025. Es hat nur einen schwerwiegenden Fehler in einer Aufgabe (P5) gemacht. Dies könnte daran liegen, dass die IMC einen höheren Wissensdichte hat, und große KI - Modelle neigen dazu, in solchen Umgebungen gut abzuschneiden.
Bei dieser Evaluierung wurden drei Schlussfolgerungen gezogen:
Schlussfolgerung 1: Alle drei Modelle haben in der IMC hohe Punktzahlen erzielt. Gemini Deep Think und Gemini Agent haben in allen Aufgaben die meisten richtigen Antworten gegeben. Ihre Punktzahlen sind vergleichbar mit denen hervorragender menschlicher Studenten.
Schlussfolgerung 2: Unter Berücksichtigung der Qualität und Klarheit der Beweise haben die Gutachter die Modelle wie folgt eingeordnet: Gemini Deep Think > Gemini Agent > Gemini Best - of - 32.
Schlussfolgerung 3: Eine qualitative Analyse der Ergebnisse zeigt, dass Gemini Deep Think besonders gut abgeschnitten hat. Seine Beweise sind viel klarer und interessanter als die anderer Modelle. Es bringt manchmal wirklich interessante Ansätze ein, während andere autonome Systeme normalerweise rechenintensive Methoden verwenden.
Da diese Evaluierung als Zusatz durchgeführt wurde, war das Evaluierungsdesign etwas kleiner. Jedes Modell wurde nur einmal für jede Aufgabe bewertet, und es gab nur einen Gutachter.
Wie hoch ist der Wert der IMC - Goldmedaille?
Die Internationale Mathematikmeisterschaft für Studenten (IMC) wird von der University College London in Großbritannien ausgerichtet und von der American University in Bulgarien organisiert. Das Rennen findet vom 28. Juli bis 3. August 2025 in Blagoevgrad, Bulgarien, statt.
Dieser Wettbewerb richtet sich an Studenten, die sich derzeit im Bachelorstudium (1. bis 4. Semester) befinden. Das maximale Alter der Teilnehmer beträgt 23 Jahre, in besonderen Fällen kann dies nach Überprüfung berücksichtigt werden. Es gibt keine Mindestaltersbeschränkung.
Die Prüfungsfragen umfassen Bereiche wie Algebra, Analysis (reelle und komplexe Analysis), Geometrie und Kombinatorik. Die Sprache des Wettbewerbs ist Englisch.
Die IMC dauert zwei Tage, und es gibt pro Tag fünf Aufgaben, jede Aufgabe ist 10 Punkte wert.
IMC - Wettbewerbsablauf: https://www.imc - math.org.uk/?year = 2025&item = problems
Für diese Bewertung wurde eine Methode ähnlich der Evaluation der American Mathematics Olympiad 2025 verwendet, mit nur wenigen Anpassungen.
Link zur Studie: https://arxiv.org/abs/2503.21934
Zwei erfahrene Gutachter wurden eingestellt, um die von den Modellen eingereichten Arbeiten zu bewerten.
Um Kontaminationen zu vermeiden, begann die Bewertung unmittelbar nach der Veröffentlichung der Aufgaben der IMC 2025. Jeder Gutachter hat unabhängig Kriterien für die Bewertung der Aufgaben festgelegt und die anonym eingereichten Arbeiten bewertet, wobei die volle Punktzahl 10 beträgt.
Jedes Modell wurde separat für alle Aufgaben unter denselben Bewertungskriterien bewertet.
Die Dauer der Lösung der Aufgaben bestimmt die Rechenleistung und die Kosten der Nutzung großer Modelle. Deshalb hat Jasper Dekoninck über die Zeitaufwendungen der drei Systeme berichtet.
Aufgrund der begrenzten Zeit werden andere Modelle vorerst nicht getestet, aber es ist sehr wahrscheinlich, dass sie auch in diesem Wettbewerb hervorragende Ergebnisse erzielen würden.
Neue Evaluierungen sind für die echte Prüfung der Fähigkeiten von Modellen von entscheidender Bedeutung. Einige Online - Nutzer können es kaum erwarten, die Leistung von o3 - Pro, Claude und Kimi K2 in der IMC - Prüfung zu sehen.
Ergebnisanalyse
Neben der quantitativen Bewertung haben die Forscher auch viele qualitative Beobachtungen und Erkenntnisse aus den Ausgaben der Modelle extrahiert, um ein umfassenderes Verständnis der Leistung der Modelle in mathematischen Schlussfolgerungsaufgaben zu erhalten.
Gemini Deep Think: Der Beweiser mit der stärksten Klarheit
Für mathematische Schlussfolgerungen ist klare Darstellung nicht nur das Kriterium für die Bewertung durch Gutachter, sondern auch ein Spiegelbild der Tiefe des Verständnisses des Problems durch das Modell. Obwohl viele Lösungen von Gemini Best - of - 32 technisch korrekt sind, sind sie oft ungeordnet, strukturlos und fehlen an effizienter logischer Organisation, was es schwer macht, den Gedankengang zu verstehen.
Im Vergleich dazu hat Gemini Agent eine bessere Logik, aber seine Beweise sind oft zu lang und dicht. Dieser umständliche Stil könnte auf seinen "Selbstverifizierungs - Feedback - Loop" zurückzuführen sein, d. h., dass das Modell dazu neigt, jeden Schritt übermäßig zu erklären.
Dagegen hat Gemini Deep Think eine noch bessere Leistung gezeigt: Seine Beweise sind sprachlich knapp, strukturell klar und die Schritte sind vernünftig angeordnet. Es kann für jeden Schritt die passende Detaillierungsstufe wählen, so dass der Leser den Schlussfolgerungsprozess leichter verstehen kann.
Gemini Deep Think: Zeigt echten Originalgedanken
Es ist üblich, dass KI - Modelle auf "Brute - Force - Rechnungen" (Bashing) setzen, d. h., dass sie komplizierte algebraische Manipulationen anstelle von mathematischer Einsicht verwenden. Dies zeigt sich besonders deutlich in den Lösungen von Gemini Agent und Gemini Best - of - 32, insbesondere in Aufgabe 9.
Dagegen hat Gemini Deep Think einen eleganteren und innovativeren Ansatz:
Der Beweis für Aufgabe 7 hebt sich durch seine extreme Kürze und Schönheit von anderen Modellen ab. In Aufgabe 9 brachte es einen noch kürzeren und aufschlussreicheren Ansatz als die offizielle Lösung. In Aufgabe 10 verwendete es noch fortschrittlichere mathematische Werkzeuge und lieferte eine stärkere Obergrenze für eine Schlüsselvariablen. Allerdings erhielt es in Aufgabe 10 nur 7 Punkte (volle Punktzahl 10), da es einige Schlussfolgerungsdetails übersprang.
Offizielle Lösungen: https://www.imc - math.org.uk/imc2025/imc2025 - day2 - solutions.pdf
Fähigkeit zur Mobilisierung hochschulmathematischer Kenntnisse
Auch die Leistung der Modelle in Aufgabe 5 ist bemerkenswert. Diese Aufgabe beinhaltet den Beweis einer Ungleichung für eine Funktion. Obwohl der Name der Funktion in der Aufgabenstellung nicht angegeben ist, handelt es sich tatsächlich um die berühmte Landau - Funktion.
Erfreulicherweise konnten alle drei Modelle diese Funktion korrekt identifizieren und ihre bekannten Eigenschaften nutzen, um einen vollständigen Beweis zu konstruieren. Dies zeigt ihre Tiefe und Genauigkeit bei der Mobilisierung von Kenntnissen.