StartseiteArtikel

Künstliche Intelligenz gewinnt die Goldmedaille bei der Internationalen Mathematikolympiade (IMO), aber der "AlphaGo-Moment" in der Mathematik ist noch nicht da.

硅谷1012025-08-01 10:37
Das Olympiade-Wettbewerb in Mathematik ist nicht gleichbedeutend mit der Lösung echter offener mathematischer Probleme.

In letzter Zeit, innerhalb von zwei Tagen nach dem Abschluss des Internationalen Mathematik-Olympiads (IMO) 2025 in Australien, hat die KI-Branche aufgrund der "IMO-Goldmedaille-Zertifizierung" einen doppelten Kampf um Talente und technologische Machtpositionen ausgetragen.

OpenAI hat vorweggekündigt, dass sein geheimer Inferenzmodell mit 35 Punkten die Goldgrenze erreicht hat. Zwei Tage später hat auch DeepMind ein gleichwertiges Ergebnis mit offizieller IMO-Zertifizierung vorgelegt. Dies markiert das erste Mal, dass KI in einem IMO mit den besten Schülern mithalten kann und zeigt einen Sprung in der mathematischen Inferenzfähigkeit von einer Silbermedaille im Jahr 2024 auf zwei Goldmedaillen im Jahr 2025.

Mit dem technologischen Fortschritt geht ein spannender Wettbewerb in der Branche einher: Als Demis Hassabis OpenAI öffentlich dafür kritisiert hat, die Ergebnisse vorzeitig preisgegeben zu haben, wurde durch die Medien bekannt, dass Meta drei Kernforscher des DeepMind-Goldteams abgeworben hat.

Die Fortschrittgeschwindigkeit der mathematischen Fähigkeiten von KI ist erstaunlich. Aber was bedeutet eigentlich eine IMO-Goldmedaille? Ist dies der AlphaGo-Moment für die Mathematik? Wird KI ein vertrauenswürdiger Partner in der mathematischen Forschung oder ein technologisches Produkt unter dem Marktlogik, das die eigentliche Bedeutung der Mathematik aufhebt?

In diesem Artikel haben wir einen ehemaligen IMO-Goldmedaillengewinner eingeladen, um aus erster Hand über die Problemlösungslogik und das mathematische Niveau der beiden KI-Systeme zu sprechen und die technologischen Durchbrüche hinter dem Wettbewerb sowie die Zukunft der Mathematik zu beleuchten.

01 Der Kampf zwischen DeepMind und OpenAI um die IMO-Goldmedaille

Als ich aufwachte, dachte ich, ich wäre in die Zeit meines Gymnasiums zurückgereist: Im Freundeskreis wurde plötzlich der IMO (Internationaler Mathematik-Olympiade, International Mathematical Olympiad, ein internationaler Mathematikwettbewerb für Gymnasiasten) erwähnt. Ich erinnere mich, dass damals nur die besten Schüler, die aus Tausenden hervorgingen, diesen Wettbewerb herausforderten. Jetzt haben jedoch KI-Systeme diesen Erfolg erzielt: OpenAI und Google DeepMind haben nacheinander angekündigt, dass ihre Modelle die Standards für eine IMO-Goldmedaille erreicht haben.

Der Zeitunterschied von nur zwei Tagen zwischen den Ankündigungen war voller Dramatik: Der diesjährige IMO endete am Sonntag, den 20. Juli in Australien, aber OpenAI hat bereits am Freitagabend, den 18. Juli, diese Nachricht bekannt gegeben.

Der Forscher Alexander Wei hat auf X gesagt: Das neueste experimentelle Inferenzmodell von OpenAI hat eine langjährige Herausforderung im Bereich der Künstlichen Intelligenz gemeistert. Es hat fünf von sechs Aufgaben im IMO-Wettbewerb gelöst und insgesamt 35 Punkte erreicht. Der Höchstpunktzahl im IMO beträgt 42 Punkte, und 35 Punkte entsprechen gerade der Schwelle für eine Goldmedaille.

Zwei Tage später hat auch DeepMind angekündigt, dass die fortgeschrittene Version des Gemini Deep Think-Modells ebenfalls diesen Erfolg erreicht hat. Das DeepMind-Modell hat den gesamten Prozess vollständig in natürlicher Sprache durchgeführt und ebenfalls 35 Punkte erzielt, was auch von der offiziellen IMO-Organisation bestätigt wurde.

Der IMO-Präsident Gregor Dolinar hat gesagt: Die Problemlösungen von DeepMind sind in vielerlei Hinsicht erstaunlich. Die Gutachter haben festgestellt, dass diese Lösungen klar, rigoros und für die meisten leicht verständlich sind.

Diese offizielle Zustimmung der Organisation wurde OpenAI nicht gewährt. Demis Hassabis hat sogar persönlich auf X erklärt: Wir haben uns entschieden, die Ergebnisse nicht am Freitag zu veröffentlichen, weil wir der ursprünglichen Bitte der IMO-Organisation respektieren. Alle KI-Labore sollten erst dann ihre Ergebnisse veröffentlichen, nachdem die offiziellen Ergebnisse von unabhängigen Experten verifiziert und die teilnehmenden Schüler geehrt wurden.

Er hat auch hinzugefügt: Unser Modell ist das erste KI-System, das offiziell als "Goldniveau" bewertet wurde – das klingt fast wie eine Anspielung auf OpenAI. Die frühere Freude von OpenAI scheint nun weniger berechtigt zu sein.

Aber noch dramatischer war, dass am nächsten Tag die Medien berichteten, dass drei Forscher aus dem Team hinter dem DeepMind-Goldmodell von Meta abgeworben wurden. In den sechs Monaten zuvor waren bereits 20 Mitarbeiter von DeepMind zu Microsoft gewechselt.

Es scheint, dass der Kampf zwischen diesen Spitzenlabors immer heftiger wird. Während wir von diesen Ereignissen genießen, sollten wir uns wieder auf den IMO-Wettbewerb konzentrieren: Was bedeutet es eigentlich, dass KI das Goldniveau erreicht hat?

Zunächst einmal ist dies noch lange nicht der AlphaGo-Moment für die Mathematik. Als AlphaGo den Weltmeister des Go-Spiels, Lee Sedol, besiegte, war die Welt schockiert. Der Hauptgrund dafür war, dass das Go-Spiel als eines der Gebiete angesehen wurde, in denen die menschliche Intelligenz am schwersten von Maschinen zu übertreffen ist.

Im Jahr 2022 hat AlphaFold von DeepMind die Proteinstruktur mit hoher Genauigkeit vorhergesagt, was als der AlphaGo-Moment für die Biologie bezeichnet wurde. Wir haben in unserem Artikel "Die Invasion der KI in die Biologie und Medizin" im vergangenen Jahr die Bedeutung davon ausführlich erklärt.

Aber diesmal haben 72 Gymnasiasten ebenfalls die Goldmedaille erreicht, darunter fünf mit der Höchstpunktzahl von 42 Punkten, was bedeutet, dass sie alle sechs Aufgaben perfekt gelöst haben. Im Gegensatz dazu haben beide KI-Modelle nur fünf Aufgaben gelöst. Daher ist es noch zu früh, zu sagen, dass KI in der mathematischen Fähigkeit die Menschen übertrifft.

Aber auch wenn es noch nicht den AlphaGo-Standard erreicht hat, beweist das Ergebnis der IMO-Goldmedaille die ausgezeichneten mathematischen Fähigkeiten der aktuellen großen Modelle. Die Informatikprofessoren Gary Marcus und Ernest Davis von der New Yorker Universität haben es als "außergewöhnlich" bewertet.

02 Der IMO als Maßstab für die mathematische Inferenzfähigkeit von KI

Die Verwendung der Lösung von IMO-Aufgaben als Maßstab für die Bewertung der Inferenzfähigkeit von KI hat bereits Vorbeispiele.

Zum Beispiel hat DeepMind im vergangenen Jahr zwei Modelle speziell für die Mathematik entwickelt: AlphaGeometry und AlphaProof. Diese Modelle haben vier von sechs IMO-Aufgaben gelöst und somit die ersten KI-Systeme geworden, die das Silberniveau erreicht haben.

Quelle: Google DeepMind

Allerdings haben diese beiden Modelle damals nicht in natürlicher Sprache gearbeitet, sondern die Methode der "formalen Beweise" verwendet. Kurz gesagt, besteht die formale Beweismethode darin, mathematische Probleme in eine Sprache umzuwandeln, die Maschinen verstehen können, und dann von der KI in dieser formalen Sprache schrittweise logisch rigorose und überprüfbare Lösungen zu entwickeln.

Das Schreibwerkzeug für diese Sprache heißt Lean (ein moderner Theorembeweiser und funktionale Programmiersprache, entwickelt von der Microsoft Research), ähnlich wie eine Programmiersprache.

Um die KI zu bemühen, mussten die Forscher zunächst die Aufgaben in natürlicher Sprache in Lean "übersetzen", damit die KI sie verarbeiten kann, und dann wieder in eine für Menschen lesbare Antwort zurückübersetzen. Dieser gesamte Prozess hat bis zu drei Tage gedauert – weit über der Zeitbeschränkung von neun Stunden innerhalb von zwei Tagen, die den Gymnasiasten im IMO zur Verfügung steht.

Diesmal hat das neueste DeepMind-Modell Gemini Deep Think unter der Bedingung von rein natürlicher Spracheingabe und -ausgabe das Goldniveau des IMO erreicht. Das bedeutet, dass die KI direkt aus natürlicher Sprache liest und in natürlicher Sprache antwortet – ohne die Unterstützung von Lean oder anderen formalen Werkzeugen. Dies hat eine wichtige Bedeutung.

Seit langem glauben viele Menschen, dass Sprachmodelle keine echten Inferenzfähigkeiten besitzen. Wenn man beispielsweise fragt: "Wie viele 'r' hat das Wort 'strawberry'?", kann es passieren, dass das Modell sich "innerlich zerreißt" und wiederholt falsche Ergebnisse liefert. Dies liegt daran, dass natürliche Sprache keine eindeutige logische Struktur hat, und der Inferenzprozess daher instabil ist. Aus diesem Grund mussten Modelle wie AlphaProof in der Vergangenheit die natürliche Sprache in Lean umwandeln, um die Unsicherheit der Sprache zu umgehen.

Jetzt hat DeepMind jedoch bewiesen, dass Sprachmodelle selbst auch komplexe mathematische Inferenzen durchführen können. Obwohl weder DeepMind noch OpenAI die genauen Trainingsverfahren ihrer Modelle offen gelegt haben, ist dies dennoch ein bedeutender Fortschritt im Vergleich zum Vorjahr.

Li Yuanshan

Doktorand in Logik an der Universität Notre Dame:

Wir wissen alle, dass KI auf der Grundlage vieler Technologien und Daten lernt und Parameter erzeugt, anstatt vordefinierte logische Regeln auszuführen. In der Mathematik dachten die ersten Forscher, die Computer für mathematische Zwecke einsetzten, dass die formalisierte Mathematik und die Anwendung dieser Regeln der Weg zur Lösung mathematischer Probleme sei. Aber jetzt sehen wir, dass viele Unternehmen versuchen, beide Ansätze zu kombinieren oder sogar direkt Sprachmodelle verwenden, um mathematische Ergebnisse in natürlicher Sprache auszugeben, ohne auf formale Systeme zurückzugreifen.

KI-Forscher wie Gary Marcus haben lange Zeit angenommen, dass Sprachmodelle keine echten mathematischen Inferenzen unabhängig durchführen können. In seiner Vorstellung muss ein KI-Modell auf eine formale Sprache wie Lean zurückgreifen, um eine maschinenprüfbare logische Struktur auszugeben, die dann manuell in natürliche Sprache umgewandelt werden muss. Das heißt, nur "gemischte Modelle" wie AlphaProof hätten die Möglichkeit, den Standards der mathematischen Forschung zu entsprechen.

Daher stellt der Erfolg von Gemini Deep Think in gewissem Maße die Ansicht von Gary Marcus in Frage.

Li Yuanshan

Doktorand in Logik an der Universität Notre Dame:

Man kann die von DeepMind veröffentlichten Lösungen sehen, die vollständig in natürlicher Sprache vorliegen, ohne jeglichen Code. Im Vergleich zum System des Vorjahrs, das zwar auch natürliche Sprache ausgab, aber zunächst die Aufgaben in eine logische Sprache übersetzen und formale Beweise durchführen musste, bevor es die Ergebnisse