Die weltweit erste KI, die einen Goldmedaille im IMO gewonnen hat, ist entstanden. Google Gemini hat das Mythos der Mathematik-Olympiade zerschmettert und mit 35 Punkten die Richter schockiert.
Google DeepMind hat bei der Internationalen Mathematik-Olympiade (IMO) eine Goldmedaille gewonnen und dies von der offiziellen Seite der IMO bestätigt bekommen! Das neue Modell Gemini Deep Think hat in nur 4,5 Stunden mit reinem natürlicher Sprache fünf der Aufgaben gelöst und 35 Punkte erreicht. Diesmal wurde auch der genaue Lösungsweg veröffentlicht.
Heute hat Google DeepMind offiziell angekündigt, dass es die Goldmedaille bei der IMO gewonnen hat!
Mit Hilfe des allgemeinen Modells Gemini Deep Think (High-End-Version) haben sie es geschafft, die ersten fünf Aufgaben zu lösen und 35 Punkte (von maximal 42 Punkten) zu erzielen.
Außerdem hat die KI in den strengen 4,5 Stunden die Goldmedaille-Standards der IMO erreicht.
Das Wichtigste ist, dass Gemini die Aufgaben ausschließlich mit natürlicher Sprache – Englisch – gelöst hat.
Im Gegensatz zu OpenAI wurde dieses Ergebnis von der offiziellen Seite der IMO-Organisation bestätigt.
Demis Hassabis hat in zwei aufeinanderfolgenden Mitteilungen betont, dass „das Google-Modell das erste KI-System ist, das offiziell auf Goldmedaille-Niveau anerkannt wurde”.
Google DeepMind gewinnt offiziell die Goldmedaille
Als die Olympischen Spiele der Mathematik wird die IMO seit 1959 jährlich durchgeführt und zieht jedes Jahr hervorragende Schüler aus der ganzen Welt an.
Die Teilnehmer müssen in 4,5 Stunden sechs tiefgreifende mathematische Aufgaben lösen, die Algebra, Geometrie, Kombinatorik und Zahlentheorie umfassen.
Nur die besten 8 % der Teilnehmer können die Goldmedaille gewinnen, was ein Symbol für höchsten akademischen Ruhm ist.
In den letzten Jahren ist die IMO allmählich zu einem Prüfgelände für die Fähigkeiten von KI geworden. Mathematische Aufgaben erfordern nicht nur logisches Denken, sondern auch kreatives Denken und Genauigkeit, was hohe Anforderungen an KI-Systeme stellt.
Im Jahr 2024 haben AlphaProof und AlphaGeometry 2 vier der sechs Aufgaben gelöst und 28 Punkte erreicht, was der Silbermedaille-Niveau entspricht.
Dieser Durchbruch mit der professionellen „formalen Sprache” zeigt, dass die KI sich langsam den mathematischen Denkfähigkeiten der Spitzensportler der Menschheit nähert.
Heute hat Gemini Deep Think einen weiteren Meilenstein erreicht und fünf Aufgaben perfekt gelöst, was ihn in die Goldmedaille-Reihe bringt.
Wie hat dieses Modell das geschafft?
Wir bestätigen hier, dass Google DeepMind einen vielbeachteten Meilenstein erreicht hat, indem es in einem Wettbewerb mit maximal 42 Punkten 35 Punkte erzielt hat – was für die Goldmedaille reicht.
Ihre Lösungen sind in vielerlei Hinsicht erstaunlich. Die Jury der IMO ist der Meinung, dass diese Lösungen klar strukturiert, präzise formuliert und für die meisten einfach verständlich sind.
– Professor Gregor Dolinar, Vorsitzender der IMO
Lösen von Aufgaben mit natürlicher Sprache und end-to-end-Inferenz
Bevor AlphaProof und AlphaGeometry 2 die schwierigen Aufgaben der IMO lösten, mussten Experten die Aufgaben in „formale Sprache”, wie Lean, übersetzen.
Auch der Beweisprozess war so, und es dauerte zwei bis drei Tage für die Berechnung.
Dieses Jahr läuft Gemini Deep Think vollständig end-to-end mit natürlicher Sprache, generiert direkt aus der offiziellen Aufgabenbeschreibung strenge mathematische Beweise und schafft dies innerhalb der 4,5-stündigen Wettbewerbszeit.
Mit den berühmten Worten von Karpathy: „Englisch ist die beliebteste Programmiersprache”. Heute scheint dies tatsächlich der Fall zu sein.
Deep Think-Modus
Um die Goldmedaille zu gewinnen, hat das Team die High-End-Version von Gemini Deep Think verwendet – ein verstärkter Inferenzmodus für komplexe Probleme.
Zusätzlich wird die parallele Denktechnik eingesetzt, die es dem Modell ermöglicht, mehrere Lösungswege gleichzeitig zu erkunden und schließlich die optimale Lösung zu finden.
Diese mehrthreadige Inferenzmethode überwindet die Beschränkungen des traditionellen linearen Denkens.
Um die Inferenzfähigkeit von Deep Think voll auszuschöpfen, hat Google auch eine neuartige verstärkte Lernausbildung für Gemini durchgeführt, damit es mehr Daten aus mehrschrittigen Inferenzen, Problemlösungen und Satzbeweisen nutzen kann.
Darüber hinaus hat das Google-Forschungsteam die Gemini-Version auf folgende Weise weiter verbessert:
· Mehr Denkzeit
· Zugang zu einer Reihe hochwertiger Lösungen für vergangene Aufgaben
· Angebot von allgemeinen Tipps und Tricks zur Lösung von IMO-Aufgaben
Diese Kombination aus „Training + Wissensbasis + Strategie” lässt Gemini auf der Bühne der IMO glänzen.
Es ist erwähnenswert, dass Google im nächsten Schritt diese Version des Deep Think-Modells einem Teil von Mathematikern und anderen Testern zur Verfügung stellen wird und anschließend an Abonnenten von Google AI Ultra anbieten wird.
Lösungsweg
Schauen wir uns nun den genauen Lösungsweg von Google Gemini Deep Think bei dieser Aufgabe an.
Offizieller Bericht: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
Bei der ersten Aufgabe, einer analytischen Geometrieaufgabe, setzt das Modell voraus, dass n > 3 eine gegebene ganze Zahl ist.
Der Beweisgedanke besteht darin, das Problem auf den speziellen Fall n = k zu vereinfachen, wobei alle Linien Sonnenscheinlinien sein müssen. Genauer gesagt, sei C(k) definiert als „P kann von k verschiedenen Sonnenscheinlinien abgedeckt werden”, und P_0 = ø.
Dann setzt das Modell ein Lemma auf: In der Menge L müssen alle N_v senkrechten Linien {x = 1, 2, ..., N_v} sein, alle N_H waagerechten Linien {y = 1, 2, ..., N_H}, und alle N_D Diagonalen müssen Linien der Form x + y = s sein, wobei s im Bereich von n + 2 - N_D, ..., n + 1 liegt.
Dann beweist das Modell dieses Lemma.
Als Nächstes beweist das Modell Satz 1: Wenn n ≥ 3 und 0 ≤ k ≤ n, dann ist die notwendige und hinreichende Bedingung dafür, dass es eine Menge von n verschiedenen Linien gibt, die die Punktmenge P_n genau abdecken und von denen genau k Sonnenscheinlinien sind, dass die Aussage C(k) wahr ist.
Als Nächstes analysiert das Modell die Kernfrage C(k): Für welche k > 0 kann die Punktmenge P_k genau von k Sonnenscheinlinien abgedeckt werden.
Schließlich beweist das Modell erfolgreich, dass die notwendige und hinreichende Bedingung für die Gültigkeit von C(k) ist, dass k ∈ {0, 1, 3}, wodurch bewiesen wird, dass die einzigen möglichen Anzahlen von Sonnenscheinlinien 0, 1 oder 3 sind.
Bei der zweiten Aufgabe, einer ebenen Geometrieaufgabe, teilt das Modell den Beweisprozess in fünf Schritte auf.
Schritt 1: Bestimmen, dass der Punkt P der exzentrische Mittelpunkt von △AMN ist.
Schritt 2: Berechnen von ∠EBF.
Schritt 3: Einführen des Hilfspunktes V und seiner Eigenschaften.
Schritt 4: Der Punkt V liegt auf dem Umkreis Σ.
Schritt 5: Das Lotzentrum H und die Tangentenbedingung.