StartseiteArtikel

Schafft Geschichte: GPT-5 gewinnt den weltweit führenden Wettbewerb, die Menschen liegen auf Platz zwei, das Team der Beijing Jiaotong University belegt den ersten Platz in China.

智东西2025-09-18 11:44
OpenAI und Google stehen im ferngesteuerten Wettlauf und gewinnen beide die Goldmedaille.

Nachrichten von Zhidongxi vom 18. September. In der Nacht von heute haben OpenAI und Google kürzlich angekündigt, dass ihre jeweiligen Modelle in der weltweit bekannten Programmiermeisterschaft ICPC 2025 (49. Internationale Studenten-Programmiermeisterschaft) in der Endrunde eine Leistung im Goldniveau erreicht haben.

Das OpenAI-Inferenzsystem hat alle 12 Fragen richtig beantwortet, und 11 Fragen wurden auf Anhieb richtig beantwortet. Die schwierigste Frage wurde nach 9 Einreichungen erfolgreich gelöst und würde im Vergleich zu menschlichen Teams an erster Stelle stehen; Die erweiterte Version von Google Gemini 2.5 Deep Think hat in 677 Minuten 10 Fragen gelöst und würde im Vergleich zu menschlichen Teams an zweiter Stelle stehen.

Wenn man die KI in die Gesamtrangliste der ICPC aufnimmt, würden die ersten drei Plätze das OpenAI-Inferenzsystem, die Staatliche Universität St. Petersburg und die erweiterte Version von Google Gemini 2.5 Deep Think einnehmen.

Die Anforderungen der ICPC sind, dass die Teilnehmer in 5 Stunden 12 komplexe Algorithmusprobleme lösen müssen. Die Vollkommenheit der Lösung und die benötigte Zeit beeinflussen die Punktzahl.

Am Ende haben von den 139 Teams die ersten vier Teams Goldmedaillen gewonnen, nämlich die Staatliche Universität St. Petersburg, die Universität Tokio, die Peking Jiaotong-Universität und die Tsinghua-Universität. Die Staatliche Universität St. Petersburg hat die meisten Fragen gelöst, insgesamt 11.

Menschliche Teams, die Goldmedaillen bei der ICPC gewonnen haben

Das ist, nachdem das OpenAI-Inferenzsystem und Google Gemini 2.5 Deep Think vor zwei Monaten bei der Internationalen Mathematikolympiade (IMO) teilgenommen haben, ein weiteres Mal, dass sie ihre Stärke in einer Spitzen-Internationalen Meisterschaft bewiesen haben.

Der Code der erweiterten Version von Google Gemini 2.5 Deep Think für die ICPC-Endrunde wurde auf GitHub als Open Source veröffentlicht.

GitHub-Adresse:

https://github.com/google-deepmind/gemini_icpc2025

01.

OpenAI bekommt volle Punktzahl

Google macht zwei Fehler

Die ICPC ist die weltweit anerkannte, älteste, umfangreichste und renommierteste Programmiermeisterschaft auf Hochschulniveau. Jedes Jahr versuchen Teilnehmer aus fast 3000 Universitäten und über 103 Ländern, reale Programmierprobleme zu lösen.

Sowohl OpenAI als auch Google haben teilgenommen und eine Leistung im Goldniveau erreicht. Das OpenAI-Inferenzsystem hat 12 Fragen beantwortet, die erweiterte Version von Google Gemini 2.5 Deep Think hat 10 Fragen beantwortet, und das beste menschliche Team hat 11 Fragen beantwortet.

1. OpenAI: Erreicht volle Punktzahl, 11 Fragen werden auf Anhieb richtig gelöst

Das OpenAI-Inferenzsystem hat volle Punktzahl erreicht.

OpenAI hat erwähnt, dass es das Modell nicht speziell für die ICPC trainiert hat, sondern ein allgemeines Inferenzmodell kombiniert hat, um an der Meisterschaft teilzunehmen.

Während des Wettbewerbs haben GPT - 5 und ein experimentelles Inferenzmodell gemeinsam Lösungen für die Probleme erstellt. Das experimentelle Inferenzmodell war für die Auswahl der Lösungen zur Einreichung verantwortlich. Schließlich hat GPT - 5 11 Fragen richtig beantwortet, und das letzte und schwierigste Problem wurde von diesem experimentellen Inferenzmodell gelöst.

Sein Modell hat 11 Fragen auf Anhieb richtig beantwortet. Das schwierigste Problem wurde bei der neunten Einreichung erfolgreich gelöst.

2. Google: Beantwortet 10 Fragen, löst 8 Fragen in 45 Minuten

Die erweiterte Version von Google Gemini 2.5 Deep Think hat gemäß den ICPC-Regeln in einer Remote-Online-Umgebung an der Live-Wettkampfrunde teilgenommen und 10 Minuten später als die menschlichen Teilnehmer begonnen. Gemini hat insgesamt 677 Minuten benötigt, um 10 der 12 Probleme zu lösen. Davon hat es 8 Probleme in 45 Minuten und die anderen 2 Probleme in 3 Stunden gelöst.

Die folgende Abbildung zeigt die Zeit, die für die Lösung jedes Problems bei der ICPC-Endrunde 2025 benötigt wurde. Die Zeit, die Gemini benötigt hat, ist in blau dargestellt, und die Zeit des schnellsten Studententeams ist in grau dargestellt.

Gemini hat bei 3 Fragen mehr Zeit als die Menschen benötigt.

Zeit, die für die Lösung jedes Problems bei der ICPC-Endrunde benötigt wurde

Außerdem hat Google DeepMind erwähnt, dass ein Problem, das alle menschlichen Teams aufgehalten hat, von Gemini innerhalb von einer halben Stunde erfolgreich gelöst wurde.

Problem C verlangt, dass das Team eine Lösung entwirft, um Flüssigkeit über ein Netzwerk miteinander verbundener Rohrleitungen in einen Satz von Flüssigkeitsspeichern zu transportieren. Das Ziel ist es, eine Rohrleitungsanordnung zu finden, die alle Flüssigkeitsspeicher am schnellsten füllt.

Bei diesem Problem gibt es unendlich viele mögliche Anordnungen, da jede Rohrleitung geöffnet, geschlossen oder sogar teilweise geöffnet sein kann. Dies macht es extrem schwierig, die optimale Anordnung zu finden.

Einführung in Problem C

Gemini hat eine effektive Lösung gefunden: Es geht zunächst davon aus, dass jeder Speicher einen "Prioritätswert" hat, der angibt, wie wichtig jeder Speicher im Vergleich zu anderen Speichern ist.

Wenn ein Satz von Prioritätswerten gegeben ist, kann man mit einem dynamischen Programmierung-Algorithmus die optimale Anordnung der Rohrleitungen finden.

Gemini hat festgestellt, dass man das ursprüngliche Problem durch Anwendung des Minimax-Theorems in das Problem der Suche nach dem Prioritätswert umwandeln kann, der den endgültigen Fluss am stärksten einschränkt.

Unter Ausnutzung der Beziehung zwischen den Prioritätswerten und dem optimalen Fluss hat Gemini in einem konvexen Lösungsraum, der einer Schüssel ähnelt, schnell den optimalen Prioritätswert durch verschachtelte Ternärsuche gefunden und schließlich Problem C gelöst.

Derzeit können Benutzer, die Google AI Ultra abonniert haben, in der Gemini-App die leichtgewichtige Version von Gemini 2.5 Deep Think nutzen.

02.

ICPC-Goldniveau

Zeigt die Fähigkeit zur abstrakten Inferenz von Large Language Models

In einem Blogbeitrag von Google DeepMind wird erwähnt, dass die Leistung von Gemini auf technologischen Innovationen in Prä-Training, Nach-Training, Techniken des Reinforcement Learnings, Mehrschritt-Inferenz und parallelem Denken beruht.

Beispielsweise trainieren die Forscher während des Reinforcement Learnings Gemini, um für einige der schwierigsten Probleme, denen Programmierer gegenüberstehen, zu inferieren und Code zu generieren. Sie lernen aus den Ergebnissen und verbessern ihre Methoden. Um ein Problem zu lösen, stellen mehrere Gemini-Agenten jeweils ihre eigenen Lösungen vor, führen den Code in der Kommandozeile aus und testen ihn, und iterieren dann die Lösungen auf der Grundlage aller Versuche.

Interne Studien von Google DeepMind zeigen, dass die erweiterte Version von Gemini 2.5 Deep Think auch in den ICPC-Weltmeisterschaften 2023 und 2024 ein Leistungsniveau im Goldbereich erreichen würde, und ihre Leistung ist nicht schlechter als die der besten 20 Wettbewerbsentwickler weltweit.

Das Erreichen eines Goldniveaus bei der ICPC hat direkte praktische Auswirkungen auf die Softwareentwicklung. Wenn man die besten KI- und menschlichen Lösungen aus dem Wettbewerb kombiniert, würden alle 12 Probleme gründlich und richtig gelöst werden. Dies zeigt, dass KI das Potenzial hat, einzigartige Ideen zu liefern und die menschlichen Experten zu ergänzen.

Außer in Mathematik und Programmierung hat die erweiterte Version von Gemini 2.5 Deep Think auch Fähigkeiten in abstrakter Inferenz gezeigt.

Dies liegt daran, dass die ICPC-Probleme es dem Modell erfordern, komplexe Probleme zu verstehen, mehrschrittige logische Pläne zu entwerfen und perfekt umzusetzen. Dieser Prozess erfordert dieselben Fähigkeiten wie in vielen wissenschaftlichen und ingenieurtechnischen Bereichen, einschließlich der Entwicklung neuer Medikamente oder Mikrochips.

Forscher von OpenAI haben in einem Beitrag auf X geschrieben, dass sie dieselbe Gruppe von Modellen für die IMO und die IOI eingesetzt haben, um die Leistung und die Allgemeingültigkeit der Modelle zu demonstrieren.

03.

Fazit: Verbesserung der Fähigkeit von Large Language Models zur Lösung komplexer und abstrakter Probleme

Von der Internationalen Mathematikolympiade (IMO) bis zu dieser Programmiermeisterschaft haben die Modelle von OpenAI und Google erneut ihr Potenzial bei der Lösung herausfordernder mathematischer und Inferenzprobleme bewiesen. Dr. Bill Poucher, der globale Direktor der ICPC, hat gesagt, dass die ICPC seit jeher bemüht ist, die höchsten Standards bei der Problemlösung zu setzen. Die Errungenschaften von Gemini in diesem Bereich markieren einen wichtigen Moment bei der Definition der künftigen KI-Werkzeuge und akademischen Standards.

Diese Durchbrüche in der Wettbewerbs-Programmierung und mathematischen Inferenz beweisen gemeinsam den Leistungssprung von Large Language Models bei der Lösung abstrakter Probleme. Sie könnten in der Lage sein, mit menschlichen Experten zusammenzuarbeiten, um noch komplexere Probleme zu lösen.

Dieser Artikel stammt aus dem WeChat-Account "Zhidongxi" (ID: zhidxcom), geschrieben von Cheng Qian und redigiert von Li Shuiqing. Dieser Artikel wurde von 36Kr mit Genehmigung veröffentlicht.