StartseiteArtikel

OpenAI hat bei der IOI (International Olympiad in Informatics) die Goldmedaille gewonnen, aber gegen drei chinesische Highschoolschüler verloren.

量子位2025-08-12 11:52
Musk: Grok4 übertrifft GPT-5.

Gerade hat OpenAI offiziell angekündigt: Eine Goldmedaille bei der IOI gewonnen!

Sein Inferenzmodell hat in diesem Jahr bei der Online-Wettbewerbsrunde der IOI einen neuen Rekord aufgestellt:

Mit einer Gesamtscore von 533,29 belegte es den sechsten Platz unter 330 menschlichen Teilnehmern weltweit; und war bei allen AI-Teilnehmern klar an der Spitze.

PS: Unter den fünf Menschen, denen die AI nicht gewachsen war, waren drei Chinesen: Liu Hengxi (Zhenhai High School in Ningbo), Fan Sizhe (Hailiang Senior High School in Zhuji, Zhejiang) und Chen Xinyang (Hangzhou No. 2 High School).

Interessanterweise hat OpenAI erklärt, dass es für die IOI kein neues Wettbewerbsmodell trainiert hat, sondern mehrere allgemeine Inferenzmodelle integriert hat.

Und das System, das diese Goldmedaille gewann, ist dasselbe wie das, das OpenAI vor kurzem behauptete, bei der IMO eine Goldmedaille gewonnen zu haben.

Was die Ergebnisse betrifft, hat sich dieses AI-Inferenzsystem im Vergleich zum Modell von letztem Jahr bei der IOI deutlich verbessert.

Für die IOI 2024 hat OpenAI speziell auf der Grundlage von o1 eine gezielte Training vorgenommen und schließlich o1-ioi erhalten, das unter strengen Wettbewerbsregeln nur 213 Punkte erreicht hat.

Dass es dieses Jahr mit einem allgemeinen Modell direkt die Goldmedaille gewonnen und seinen Rang stark verbessert hat, hat die Netizens fassungslos gemacht.

Vor kurzem hat die Behauptung von OpenAI, dass sein Modell bei der IMO eine Goldmedaille gewonnen habe, viele Kontroversen ausgelöst. Diesmal sind die Netizens bei den Ergebnissen der IOI deutlich vorsichtiger:

Handelt es sich wirklich um ein bemerkenswertes Abzeichen oder ist es wieder nur ein Marketingstrick...

Zur gleichen Zeit haben viele Netizens gerufen: "Bringt uns 4o zurück!"

Interessanterweise hat Elon Musk plötzlich die IOI Benchmark-Rangliste veröffentlicht, die zeigt, dass Grok 4 in Bezug auf Programmierung GPT-5 übertroffen und den ersten Platz belegt hat (doge).

Schauen wir uns die Details der Goldmedaille des OpenAI-Inferenzsystems an.

Wie die Menschen: 5 Stunden, 50 Versuche

Die IOI (Internationale Informatik-Olympiade) ist das höchste internationale Wettbewerbsformat für Computerwissenschaften auf Schülerebene und hat strenge und standardisierte Wettbewerbsregeln:

Die teilnehmenden Schüler müssen in zwei Tagen jeweils in fünf Stunden unabhängig drei schwierige Algorithmusprobleme lösen. Während des gesamten Wettbewerbs ist kein Internetzugang möglich, und sie können keine externen Materialien nutzen. Am Ende müssen sie eine C++-Code-Lösung einreichen, die von verborgenen Testfällen automatisch bewertet wird.

Insgesamt haben 330 Teilnehmer aus 84 Ländern an der IOI 2025 teilgenommen. Der Höchstpunktwert beträgt 600 Punkte. Der Mindestpunktwert für eine Goldmedaille liegt bei 438,30 Punkten, und nur 28 Teilnehmer haben am Ende eine Goldmedaille erhalten.

OpenAI hat erklärt, dass es offiziell am Online-AI-Wettbewerbsteil der IOI teilgenommen hat, wobei die Regeln für die AI dieselben wie für die menschlichen Teilnehmer sind, d. h. es gibt eine Zeitbegrenzung von 5 Stunden und eine Begrenzung von 50 Einreichungen.

Außerdem hat das AI-System während des gesamten Wettbewerbs weder das Internet noch die Retrieval Augmented Generation (RAG)-Technologie genutzt und nur grundlegende Terminalwerkzeuge verwenden können.

Genauer gesagt haben sie mehrere leistungsstarke Inferenzmodelle integriert, um Kandidatenprogramme zu generieren, diese Programme ausgeführt und dann die beste Lösung eingereicht. Die einzige Hilfestellung bestand darin, die Versuche auszuwählen, die eingereicht werden sollten, und mit der Wettbewerbs-API zu interagieren.

Im Online-AI-Wettbewerbsteil der IOI werden die Aufgaben über die API abgerufen und die Lösungen eingereicht, ohne dass es einer direkten Überwachung durch die Wettbewerbsorganisatoren bedarf.

Die Leistung des neuen OpenAI-AI-Inferenzsystems hat 98 % der Teilnehmer übertroffen, und sowohl die Ergebnisse als auch die Methode unterscheiden sich stark von denen des letzten Jahres.

Bei der IOI 2024 hat OpenAI das o1-ioi-Modell verwendet, ein spezielles Modell, das auf der Grundlage von o1 für Programmieraufgaben durch verstärktes Lernen feinabgestimmt wurde.

o1-ioi ist stark auf eine komplexe und von Menschen entworfene Testzeit-Inferenzstrategie angewiesen (ähnlich der von Menschen entworfenen Testzeit-Inferenzstrategie von AlphaCode), einschließlich:

  • Generierung von 10.000 Kandidatenlösungen für jede Teilaufgabe
  • Clusterung und Sortierung der Lösungen auf der Grundlage von vom Modell selbst generierten Testfällen
  • Auswahl der endgültig einzureichenden 50 Lösungen anhand einer gelernten Bewertungsfunktion

Trotz der großen Anzahl an Ingenieurtechniken hat o1-ioi bei der IOI 2024 nur 213 Punkte erreicht und den 49. Perzentil belegt, was keine Bronzemedaille gerechtfertigt hat.

One More Thing

Das Team um Xie Saining hat vor kurzem einen Echtzeit-Benchmark namens LiveCodeBench Pro vorgestellt, der Wettbewerbs-level-Programmierprobleme aus der IOI, Codeforces und ICPC enthält.

Die neuesten Testergebnisse von GPT-5 sind da:

GPT-5 Thinking hat in der Testgruppe des ersten Quartals 2025 einen Durchbruch erzielt und ist das einzige Modell, das die schwierige Problemgruppe gelöst hat, und dies ist noch nicht die fortgeschrittenere "Thinking Pro"-Version.

Im Durchschnitt ist die Antwortlänge von GPT-5 über 100.000 Token, das ist das Dreifache von o3.

Referenzlinks

[1]https://x.com/OpenAI/status/1954969035713687975

[2]https://x.com/rohanpaul_ai/status/1954992741101998099

[3]https://x.com/wenhaocha1/status/1954751124050989213

[4]https://x.com/elonmusk/status/1955047197487272362

Dieser Artikel stammt aus dem WeChat-Account "QbitAI", Autor: Xifeng. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.