GPT-5 in Gefahr: DeepSeek stellt weltweit erste KI mit olympischer Mathematikgoldmedaille Open Source und fordert Google heraus

Das Open-Source-IMO-Goldmedaille-Modell DeepSeekMath-V2 übertrifft Google in der Selbstüberprüfungskapazität.

Nach langer Stille ist DeepSeek wieder zurück! Heute ist DeepSeekMath-V2 mit großer Pause auf die Bühne getreten und hat sich den Goldmedaille bei der IMO 2025 geholt. Seine Leistung ist vergleichbar oder sogar besser als das IMO-Goldmodell von Google. Das Open-Source-AI hat wieder einen Punkt gemacht.

DeepSeek ist wieder da!

Gerade hat DeepSeek das neue Modell DeepSeekMath-V2 mit großer Pause vorgestellt und hat sich den Goldmedaille bei der IMO 2025 geholt.

Das Wichtigste ist, dass dies das erste „Open-Source-IMO-Goldmodell“ ist.

Basierend auf DeepSeek V3.2 Exp Base aufgebaut

Derzeit sind zwei Modelle offiziell als Goldmedaillengewinner bekannt. Ein Modell stammt von Google Gemini Deep Think, das andere von einem internen Modell von OpenAI.

In der IMO-ProofBench hat DeepSeekMath-V2 eine starke Fähigkeit zur Theorembeweis gezeigt:

IMO 2025: 5 von 6 Aufgaben gelöst, was dem Goldniveau entspricht;

CMO 2024 (Chinesisches Mathematikolympiade): Goldniveau erreicht;

Putnam 2024: 118 Punkte (fast volle Punktzahl von 120), was die höchste Punktzahl der menschlichen Teilnehmer (90 Punkte) übertrifft.

Darüber hinaus hat DeepSeekMath-V2 auf der ProofBench-Basic die Leistung des Google-Goldmodells – Gemini Deep Think – übertroffen; auf der ProofBench-Advanced hat es Google dicht gefolgt.

In der Studie hat das Team einen auf einem LLM-Verifikator (Verifier) basierenden Belohnungsfunktion trainiert und damit das Modell trainiert, um Probleme autonom zu lösen.

Außerdem haben sie die Rechenleistung des Verifikators erhöht, um komplexere Beweise zu kennzeichnen und den Verifikator selbst weiter zu optimieren.

Diese Methode ist sehr klug und kann die Lücke zwischen Generierung und Verifikation effektiv schließen.

Die Ergebnisse bestätigen, dass „verifizierbare mathematische Deduktion“ ein gangbarer Forschungsweg für die Zukunft ist.

DeepSeekMath-V2 macht „Selbstverifikation“ zur stärksten Waffe

Die Studie zu DeepSeekMath-V2 ist auch auf GitHub veröffentlicht worden.

Der Kernbruch durch das neueste DeepSeekMath-V2 von DeepSeek ist: Selbstverifikation (Self-Verification).

Dies ermöglicht es ihm nicht nur, die besten menschlichen Teilnehmer in den schwierigsten mathematischen Wettbewerben zu schlagen, sondern auch, einen unvermeidlichen Weg zu einem fortschrittlicheren AI aufzuzeigen – das Lernen der Selbstreflexion.

Warum es nicht genügt, nur auf das Ergebnis zu schauen

In der Vergangenheit war die Methode, AI zum Lösen von mathematischen Aufgaben zu trainieren, sehr einfach: Man gibt ihm eine Aufgabe, und wenn seine Lösung mit der Musterlösung übereinstimmt, bekommt er eine Belohnung.

Dies funktioniert gut bei einfachen Rechenaufgaben (z. B. im AIME-Wettbewerb).

Aber auf der Ebene der Krone der Mathematik – der Internationalen Mathematikolympiade (IMO) – versagt diese Methode völlig.

Weil die Aufgaben der IMO oft keine einfachen numerischen Lösungen haben, sondern es erfordern, einen logisch fehlerfreien Beweis zu schreiben.

Frühere AI war hier oft ein „Betrüger“. Sie konnte eine Menge scheinbar professioneller mathematischer Fachausdrücke erfinden und schließlich eine Schlussfolgerung ziehen. Obwohl sie möglicherweise das richtige Ergebnis erraten hat, war der Beweis voller Lücken.

DeepSeekMath-V2 beschließt, die Regeln grundlegend zu ändern. Es soll nicht nur die richtige Lösung belohnt werden, sondern auch der strenge „Selbstkritikprozess“.

Geheimbombe: Das dreigleisige System der Selbstwiderlegung

Um diese „Selbstreflexion“ zu erreichen, hat DeepSeek ein raffiniertes „System der Selbstwiderlegung“ entworfen, als ob drei Personen im Gehirn des AI wohnen würden:

1. „Aufgabenlöser“ (Generator, Beweisgenerator):

Verantwortlich für das Lösen von Aufgaben und das Schreiben von Beweisen.

Aber anders als bisher wird er trainiert, nicht nur die Lösung zu schreiben, sondern auch eine „Selbstbewertung“ hinzuzufügen. Er muss ehrlich sagen: „Ich bin mir bei diesem Schritt nicht sicher, es könnte falsch sein.“

Das Forschungsteam hat die Belohnung geschickt gestaltet, was die folgenden Anreize zur Folge hat:

Es ist vorteilhafter, ehrlich mit Fehlern umzugehen als zu behaupten, man hätte immer recht.
Der Schreiben eines wirklich richtigen Beweises und die genaue Erkennung seiner Strenge kann die höchste Belohnung bringen.
Für den Generator ist die beste Strategie, so viele Probleme wie möglich zu finden und zu korrigieren, bevor er die endgültige Antwort gibt.

2. „Unparteiischer Richter“ (Verifier, Beweisprüfer):

Dies ist ein speziell von DeepSeek trainiertes Bewertungsmodell. Es schaut nicht, ob die Lösung richtig ist, sondern konzentriert sich darauf, den Beweis auf Fehler zu prüfen. Es bewertet den Beweis wie ein Prüfer (0 Punkte, 0,5 Punkte, 1 Punkt) und zeigt die spezifischen logischen Lücken auf.

1 Punkt: Der Beweis ist vollständig und streng, alle wichtigen Schritte der Deduktion sind klar und ausführlich begründet;
0,5 Punkte: Der allgemeine Gedanke ist richtig, aber es gibt leichte Fehler in den Details oder einige Begründungen werden weggelassen;
0 Punkte: Es gibt einen fatalen logischen Fehler oder eine wichtige Lücke, die den Beweis im Wesentlichen ungültig macht.

3. „Auditor des Richters“ (Meta-Verifier, Metaprüfer):

Dies ist der geniale Schritt. Weil der „Richter“ auch Fehler machen oder aus Bequemlichkeit falsch beurteilen kann.

Deshalb hat DeepSeek einen „Metaprüfungsmechanismus“ eingeführt, um zu überprüfen, ob der „Richter“ falsch herangeht. Wenn der „Richter“ einen nicht vorhandenen Fehler anzeigt, wird er vom „Auditor“ bestraft.

Der „Meta-Verifier“ überprüft die Analyse des Verifiers, einschließlich:

1. Existiert das vom Verifier angezeigte Problem wirklich im ursprünglichen Beweis;

2. Sind diese Probleme ausreichend, um die von ihm vergebene Punktzahl zu begründen und stimmen sie mit den ursprünglichen Bewertungsregeln überein.

Mit dem Meta-Verifier ist der durchschnittliche Qualitätswert der Analyse des Verifiers von 0,85 auf 0,96 gestiegen, während die ursprüngliche Bewertungsgenauigkeit beibehalten wurde.

In der Zusammenarbeit dieser drei Komponenten kann DeepSeekMath-V2 sogar ohne Musterlösung sich selbst Aufgaben stellen, sie lösen, korrigieren und erneut lösen.

Zunächst hat sich zwischen dem Beweisprüfer und dem Beweisgenerator ein positiver „Schleifenprozess“ entwickelt:

Der Verifier gibt dem Generator ein Belichtungssignal, wodurch die Beweisfähigkeit des Generators ständig verbessert wird;
Mit der Verbesserung des Generators entstehen immer „herausfordernder“ neue Beweise, die wiederum die Schwächen des Verifiers aufdecken, die er noch nicht abgedeckt hat.

Insbesondere die Beweissamples, bei denen der Verifier beim ersten Versuch keine Probleme gefunden hat, sind für die weitere Ausbildung des Verifiers von hohem Wert.

Um die Richtigkeit der neuen Beweise effizient zu kennzeichnen, hat das Forschungsteam einen automatisierten Kennzeichnungsprozess entwickelt:

In den letzten beiden Trainingsiterationen hat diese vollautomatische Kennzeichnungspipeline die manuelle Kennzeichnung vollständig ersetzt. Spätere Qualitätskontrollen haben gezeigt, dass die automatisch generierten Kennzeichnungen mit der Einschätzung von menschlichen Experten hochgradig übereinstimmen.

Spitzenkampf: DeepSeek vs Gemini

In diesem Bereich ist DeepSeek nicht allein.

Das Gemini Deep Think von Google DeepMind ist auch ein Spitzenteam, das gerade das IMO-Goldniveau erreicht hat.

Der Vergleich zwischen den beiden ist sehr interessant:

DeepMind ist wie ein Adliger mit unendlichen Ressourcen. Seine Stärke ist unbestritten und es führt immer noch in einigen fortschrittlichen Benchmarks (z. B. IMO-ProofBench Advanced).
DeepSeek ist wie ein talentierter Jugendlicher, der aus dem Nichts auftaucht. Laut der Studie von DeepSeek hat ihr V2-Modell auf dem Basis-Testset (ProofBench Basic) das Gemini Deep Think überholt und hat in den öffentlichen Wettbewerbsaufgaben eine erstaunliche Dominanz gezeigt.

Wichtiger noch ist, dass DeepSeek diesen Technologiepfad open source gemacht und die Trainingsmethode detailliert offen gelegt hat.

Dies war eine Warnung für alle AI-Forscher weltweit: Auf dem Weg zum AGI könnte die Selbstverifikation wichtiger sein als der bloße Einsatz von Rechenleistung.

Google und OpenAI auf den Fersen, das Open-Source-IMO-Modell gewinnt

Hinter dieser erstaunlichen Leistung verbirgt sich eine gewisse „gegenintuitiv“ evolutionäre Eigenschaft von DeepSeekMath-V2 in den Experimenten.

Die Fähigkeit, es „auf Anhieb richtig zu machen“: Übertrifft GPT-5 und Gemini auf allen Ebenen

Wenn man alle komplexen Prozesse der wiederholten Überlegung und Verifikation weg lässt und nur die „erste Intuition“ des Modells betrachtet – also die sogenannte One-Shot-Fähigkeit – zeigt DeepSeekMath-V2 immer noch eine dominante Stärke.

Das Forschungsteam hat ein internes Testset CNML erstellt, das aus fünf Kategorien schwieriger Aufgaben aus Algebra, Geometrie, Zahlentheorie, Kombinatorik und Ungleichungen besteht (die Schwierigkeit entspricht der chinesischen Mathematikmeisterschaft für Gymnasien).

Auf diesem Schlachtfeld hat DeepSeekMath-V2 direkt gegen die beiden stärksten Deduktionsmodelle auf dem Markt – GPT-5-Thinking-High von OpenAI und Gemini 2.5-Pro von Google DeepMind – angetreten.

Das Ergebnis ist wie folgt: