StartseiteArtikel

Ein großes Schachspiel: OpenAI hat die Goldmedaille der IMO "weggeholt", und Altman hat eine "nuklearstarke" Aufwärmphase für GPT-5 eingeläutet.

新智元2025-07-21 07:58
Terence Tao tritt auf die Bühne, um Kommentare abzugeben.

OpenAI hat wieder die Bühne von Google geraubt! Das AI-Modell, das als erstes den Goldmedaille-Sieg beim IMO errang, war ursprünglich Googles DeepMind. Nur aufgrund langsamer internen Genehmigungsverfahren konnte OpenAI die Nase vorn sein und alle Augen auf sich ziehen. Was macht das Modell, das OpenAI den Goldmedaille-Sieg beim IMO beschert hat, so besonders? Warum hat die dahinterliegende Kontroverse den Fields-Medaille-Träger Terence Tao dazu gebracht, sich öffentlich zu äußern?

Wer hätte gedacht, dass OpenAI wieder die Bühne von Google geraubt hat!

Es wird berichtet, dass Googles DeepMind-AI-Modell bereits am Freitag, also vor zwei Tagen, die Goldmedaille beim IMO errang.

Aber aufgrund der langsamen internen Prüfung muss DeepMind bis Montag auf die Genehmigung der Marketingabteilung warten, bevor es die genauen Details offiziell bekanntgeben kann.

OpenAI hat die Gelegenheit genutzt und nach dem Üben mit einem neuen universellen Inferenzmodell bei den IMO-Aufgaben sofort das Ergebnis veröffentlicht.

Gestern war fast das gesamte Internet von der Meldung über OpenAIs Goldmedaille-Sieg beim IMO überschwemmt. Eigenständige Forscher traten auf und prahlten mit der Stärke von OpenAIs geheimnisvollem Modell.

Heute scheint alles geplant gewesen zu sein.

Der DeepMind-Forscher Archit Sharma scherzte: „Glückwunsch! Sie haben es uns doch vorgezogen – ist jetzt P6 der neue Maßstab?“

OpenAI erobert die Goldmedaille beim IMO, GPT-5 ist bald da

Warum wird so viel Aufmerksamkeit auf das universelle Inferenzmodell gerichtet, das die Goldmedaille beim IMO errang?

Kurz gesagt, hat OpenAIs neues universelles Inferenzmodell „neue Wege in der universellen Verstärkungslearning und der Berechnungserweiterung während des Tests eingeschlagen.“

Was macht dieses universelle Inferenzmodell anders?

Der OpenAI-Inferenzforscher Noam Brown hat darauf hingewiesen, dass dieses Modell nicht speziell für den Internationalen Mathematik-Olympiade (IMO) entwickelt wurde.

Es ist ein Inferenz-LLM, das neue experimentelle universelle Techniken integriert, um es besser in Aufgaben zu bewältigen, die schwer zu überprüfen sind.

Die IMO-Aufgaben sind ein perfektes Beispiel für diese Herausforderung: Die Beweise können mehrere Seiten lang sein, und Experten benötigen Stunden, um sie zu bewerten.

Im Gegensatz dazu ist die Antwort bei der AIME nur eine ganze Zahl zwischen 0 und 999.

Im Vergleich zu früheren Benchmarks erfordern die IMO-Aufgaben ein höheres Maß an anhaltendem kreativem Denken.

Dieses universelle Inferenzmodell hat in der Dauer der Inferenzschritte Fortschritte erzielt: von GSM8K (etwa 0,1 Minuten für Spitzenmenschen) → MATH-Benchmark (etwa 1 Minute) → AIME (etwa 10 Minuten) → IMO (etwa 100 Minuten).

„Wichtig ist, dass es auch effizienter denkt. Und es gibt noch viel Raum für Verbesserungen bei der Rechenleistung und -effizienz während des Tests.“

Zweitens sind die Beiträge für den IMO mehrseitige Beweise, die schwer zu überprüfen sind.

Fortschritte auf diesem Gebiet erfordern eine Überwindung des Paradigmas des Verstärkungslearnings mit klaren, überprüfbaren Belohnungen.

So kann man ein Modell erhalten, das wie ein menschlicher Mathematiker komplexe und unangreifbare Argumentationen aufbauen kann.

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

Was bedeutet dieses Ergebnis eigentlich?

Noam Brown gibt die Antwort:

Vielleicht aufgrund des IMO-Ereignisses hat auch Altman sich öffentlich geäußert.

Er sagte, was bei OpenAIs Goldmedaille-Sieg beim IMO betont werden muss, ist: „Dies ist ein LLM, das Mathematikaufgaben löst, und nicht ein spezielles formales mathematisches System. Dies ist ein wesentlicher Schritt in Richtung AGI.“

Tatsächlich ist es nicht schwer zu erkennen, dass Altman mit seiner „Aktivität“ den Weg für die Veröffentlichung von GPT-5 ebnet!

Dieser Zeitpunkt ist für OpenAI sehr wichtig, und das erwartete GPT-5 wird bald erscheinen.

Sie möchten vermutlich an diesem wichtigen Zeitpunkt OpenAIs Goldmedaille-Sieg beim IMO nutzen, um GPT-5 einen Schub zu geben.

Aber Altman ist auch vorsichtig und senkt die Erwartungen an GPT-5.

Er hat darauf hingewiesen, dass GPT-5 ein experimentelles Modell ist, das einige neue Forschungstechniken verwendet, die in zukünftigen Modellen eingesetzt werden werden.

„Innerhalb von Monaten wird kein Modell mit der Fähigkeit eines IMO-Goldmedaille-Trägers veröffentlicht.“

Terence Tao beurteilt den IMO

Im Hinblick auf die Kontroverse hinter dem IMO-Goldmedaille-Träger hat der Mathematikgigant Terence Tao auch seine Meinung öffentlich geäußert.

„Ich werde keine Berichte über AI-Wettbewerbsleistungen kommentieren, wenn die Testmethoden nicht vorher veröffentlicht wurden.“

Terence Tao hat es kurz und knapp gemacht: Ohne eine kontrollierte Testumgebung ist es schwierig, die mathematischen Fähigkeiten von AI genau zu beurteilen.

Er hat darauf hingewiesen, dass viele Menschen einen Irrtum über AI haben, indem sie ihre Fähigkeiten als entweder „fähig“ oder „unfähig“ betrachten.

Tatsächlich erstreckt sich ihre Fähigkeit über ein breites Spektrum. Die Rechenressourcen, die Sie ihr zur Verfügung stellen, die Qualität der Anweisungen, die Sie ihr geben, und wie Sie das Ergebnis ausgeben lassen, können das Endresultat dramatisch verändern.

Nehmen wir das Beispiel eines menschlichen Wettbewerbs:  Bei dem gerade beendeten IMO-Wettbewerb haben verschiedene Länder Teams von sechs Highschool-Schülern (geleitet von professionellen Mathematikern) geschickt.

Während der zweitägigen Wettbewerbszeit hat jeder Teilnehmer an jedem Tag vier Stunden und eine halbe Stunde Zeit, um unabhängig drei schwere Aufgaben zu lösen, und zwar nur mit Papier und Stift.

Währenddessen ist es den Teilnehmern strengstens verboten, miteinander zu kommunizieren (einschließlich mit den Teamleitern). Sie dürfen nur an die Aufsichtsstundenperson Fragen zur Aufgabenstellung stellen. Die Teamleiter können nur während der Bewertungsphase bei der Prüfungsbehörde ein Einspruch erheben und nehmen nicht direkt an der Lösung der Aufgaben teil.

Wir wissen alle, dass der IMO als Goldstandard für die mathematischen Fähigkeiten von Schülern angesehen wird: Die Goldmedaille-Grenze wurde dieses Jahr auf 35/42 Punkte festgelegt (d.h. fünf Aufgaben perfekt gelöst), und wenn man eine Aufgabe vollständig löst, erhält man eine „Ehrennennung“.

Aber wenn man die Wettbewerbsform ändert, wird die Schwierigkeit dramatisch verändert!

Stellen Sie sich vor, wie sich die Schwierigkeitsstufe ändern würde, wenn wir die Form des Olympischen Wettbewerbs auf andere Weise ändern?

Beispielsweise geben wir den Schülern mehrere Tage Zeit, um jede Aufgabe zu lösen, anstatt nur vier Stunden und eine halbe Stunde für drei Aufgaben.

Vor dem Beginn der Prüfung wird der Teamleiter die Aufgaben in ein Format umschreiben, das den Schülern leichter verständlich ist.

Die Schüler können unbegrenzt auf Taschenrechner, Computer-Algebra-Softwarepakete, formale Beweishelfer, Lehrbücher oder das Internet zugreifen.

Der Teamleiter lässt das sechsköpfige Team an der gleichen Aufgabe arbeiten und austauschen, wie weit sie fortgeschritten sind und welche Sackgassen sie erreicht haben.

Währenddessen wird der Teamleiter die Schüler anleiten, effizientere Methoden anzuwenden und eingreifen, wenn ein Schüler zu viel Zeit in eine Richtung investiert, die wahrscheinlich nicht erfolgreich sein wird.

Bei der Einreichungsphase gibt jeder Teilnehmer seine Lösung ab, aber der Teamleiter wählt nur die „beste“ Lösung aus und gibt sie ab, während die anderen verworfen werden.

Wenn keine der Schüler im Team eine zufriedenstellende Lösung gefunden hat, wird der Teamleiter keine Lösung einreichen und stillschweigend aus dem Wettbewerb aussteigen, und ihre Teilnahme wird nie aufgezeichnet. 

In diesen Szenarien stammen die Antworten immer noch „technisch“ von den Schülern.

Dies zeigt auch, dass eine Änderung der Wettbewerbsform ein Team, das ursprünglich unterhalb der Bronzemedaille-Grenze liegt, auf das Niveau eines Goldmedaille-Trägers heben kann.

„Dies warnt uns, dass es sinnlos ist, die IMO-Leistungen verschiedener AI-Modelle (oder von AI und menschlichen Teilnehmern) zu vergleichen, wenn es keine einheitlichen Teststandards gibt. Es ist wie das Vergleichen von Äpfeln mit Orangen,“ hat Terence Tao festgestellt.

Quellen:

https://mathstodon.xyz/@tao/114881418225852441 

https://x.com/zjasper666/status/1946650175063384091 

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.