V3.2 nähert sich Gemini 3 an. DeepSeek macht sich mutig und ruft: Als nächstes werde ich die Rechenleistung erhöhen.
Just vor einer Woche hat Ilya Sutskever, der ehemalige Chefwissenschaftler von OpenAI und derzeitige CEO von SSI, in einem neuesten Podcast-Interview eine sensationelle These aufgestellt. Die vergangenen fünf Jahre des "Zeitalters der Skalierung" neigen dem Ende zu. Die Menge an vortrainierten Daten ist begrenzt. Selbst wenn man einfach noch 100-mal mehr GPU-Kapazität einsetzt, um noch größere Modelle zu trainieren, ist es nicht sicher, dass dies zu einer qualitativen Veränderung führt. Wir sind also wieder in eine Zeit zurückgekehrt, in der die Forschung im Mittelpunkt steht, nur dass wir diesmal über eine enorme Rechenleistung verfügen." Diese Äußerung gilt als starker Beleg für die These, dass die Skalierungsgesetze an ihre Grenzen stoßen.
Allerdings hat DeepSeek nur wenige Tage später, am 1. Dezember, mit der Veröffentlichung von V3.2 und V3.2-Speciale eine andere Antwort gegeben.
Nach der Veröffentlichung der Modelle hat der DeepSeek-Forscher Zhibin Gou auf X geschrieben:
"Wenn Gemini-3 die Möglichkeit der kontinuierlichen Skalierung des Vortrainings bewiesen hat, dann hat DeepSeek-V3.2-Speciale die Skalierbarkeit des Reinforcement Learnings in einem großen Kontextumfeld bewiesen. Wir haben ein Jahr lang daran gearbeitet, DeepSeek-V3 an seine Grenzen zu treiben, und die Erfahrung, die wir daraus gewonnen haben, ist: Die Engpässe nach dem Training müssen durch Optimierungsmethoden und Daten gelöst werden, nicht einfach durch das Warten auf ein besseres Basis-Modell."
Er hat noch hinzugefügt:
"Skalieren Sie kontinuierlich die Modellgröße, die Datenmenge, den Kontext und das Reinforcement Learning. Lassen Sie sich nicht von den Stimmen stoppen, die von 'Engpässen' sprechen."
Dies ist eines der wenigen Statements des DeepSeek-Teams, und es ist bemerkenswert. Während die Branche darüber diskutiert, ob die Skalierungsgesetze an ihre Grenzen stoßen, hat DeepSeek mit konkreten Modellen signalisiert, dass die Skalierung nicht tot ist, sondern nur in ein anderes Schlachtfeld verschoben wurde.
Obwohl die Branche allgemein die Wichtigkeit des Nach-Trainings anerkennt, sind es immer noch nur wenige Unternehmen, die einen Rechenleistungshaushalt von mehr als 10 % des Vortrainingskosten auf das Reinforcement Learning verwenden. DeepSeek ist ein Vertreter, der diesen Ansatz tatsächlich in die Praxis umsetzt und skaliert.
Die beiden in dieser Veröffentlichung vorgestellten Modelle sind das Ergebnis dieses Ansatzes. V3.2 ist für den täglichen Einsatz konzipiert und steht im Vergleich zu GPT-5. V3.2-Speciale ist für die maximale Inferenzleistung optimiert und steht im Vergleich zu Gemini 3.0 Pro. Darüber hinaus hat es vier internationale Wettbewerbsmeisterschaften gewonnen.
Es ist bemerkenswert, dass in der Einleitung des technischen Berichts steht: "In den letzten Monaten hat die Open-Source-Community zwar Fortschritte gemacht, aber die Leistungskurve der Closed-Source-Modelle beschleunigt sich steiler. Die Lücke wird nicht kleiner, sondern größer." Gleichzeitig werden drei Kernschwächen der aktuellen Open-Source-Modelle benannt:
Übermäßige Abhängigkeit von der normalen Attention-Mechanik führt zu einer geringen Effizienz bei langen Sequenzen, zu wenig Rechenleistung für das Nach-Training und eine schlechte Generalisierungsfähigkeit in Agent-Szenarien. Aber DeepSeek ist sich sicher, dass es Lösungen gibt, und V3.2 ist ihre Antwort."
V3.2: Effizientes Hauptmodell, das Selbstentwicklung für die allgemeine Effizienz nutzt
V3.2 ist der offizielle Nachfolger der im September veröffentlichten experimentellen Version V3.2-Exp. Sein Ziel ist es, die Inferenzleistung und die Ausgabe-Kosten zu balancieren.
In Inferenz-Benchmark-Tests hat V3.2 das Niveau von GPT-5 erreicht: 93,1 % bei der AIME 2025 Mathematik-Wettbewerbs (GPT-5 hat 94,6 %), 92,5 % bei der HMMT 2025 Februar-Wettbewerbs (GPT-5 hat 88,3 %) und 83,3 % bei der LiveCodeBench Code-Evaluation (GPT-5 hat 84,5 %). Im Vergleich zu Kimi-K2-Thinking reduziert V3.2 die Ausgabe-Token-Menge erheblich, während es eine ähnliche Leistung beibehält. Strenge Token-Beschränkungen und Längenstrafen machen es sparsamer, schneller und günstiger.
Der Kern der architektonischen Änderungen in V3.2 ist die Einführung von DeepSeek Sparse Attention (DSA). Diese Technologie wurde erstmals in der September-Version V3.2-Exp vorgestellt. Sie ersetzt die traditionelle vollständige Attention durch eine sparse Attention und reduziert die Rechenkomplexität von O(L²) auf O(Lk).
Zwei Monate nach der Veröffentlichung von V3.2-Exp hat DeepSeek die Effektivität von DSA in mehreren Dimensionen bestätigt: Die Standard-Benchmark-Ergebnisse sind mit denen von V3.1-Terminus vergleichbar, die Elo-Bewertung in ChatbotArena ist ähnlich, und in der Drittanbieter-Langkontext-Evaluation liegt es sogar vier Punkte höher. Dies bedeutet, dass DeepSeek den richtigen Weg bei der Innovation der unteren Architektur eingeschlagen hat. Sparse Attention kann die Effizienz erheblich verbessern, ohne die Leistung zu beeinträchtigen.
V3.2 hat auch einen wichtigen Durchbruch erzielt: Es ist das erste DeepSeek-Modell, das "Denken" und "Werkzeugaufruf" kombiniert. Frühere Inferenzmodelle (einschließlich OpenAIs o-Serie) konnten in der Denk-Modus keine Werkzeuge aufrufen. V3.2 bricht diese Beschränkung und unterstützt sowohl den Denk-Modus als auch den Nicht-Denk-Modus für den Werkzeugaufruf.
Der größte Teil des technischen Berichts befasst sich mit der Trainingsmethode für die Agent-Fähigkeiten. DeepSeek hat eine umfangreiche Agent-Aufgaben-Synthese-Pipeline aufgebaut, die über 1.800 Umgebungen und über 85.000 komplexe Anweisungen abdeckt.
Das zentrale Designprinzip dieser Pipeline ist "schwer zu lösen, einfach zu verifizieren". Am Beispiel der Reiseplanungsaufgabe im Bericht: Die komplexe Kombination von Einschränkungen führt zu einem großen Suchraum, aber es ist einfach, zu überprüfen, ob ein Lösungsvorschlag den Einschränkungen entspricht. Diese Eigenschaft eignet sich natürlich für Reinforcement Learning. Das Modell kann durch zahlreiche Versuche klare Feedback über richtig oder falsch erhalten, ohne dass manuelle Annotationen erforderlich sind.
Die Effektivitätsprüfung ist überzeugend. Modelle, die nur mit synthetischen Daten für das Reinforcement Learning trainiert wurden, haben in Agent-Benchmarks wie Tau2Bench und MCP-Mark eine deutliche Verbesserung gezeigt, während Modelle, die nur in realen Umgebungen trainiert wurden, in diesen Indikatoren fast keine Veränderung gezeigt haben.
Es ist bemerkenswert, dass die Offizielle Seite besonders betont, dass V3.2 nicht speziell für die Werkzeuge dieser Testsets trainiert wurde, aber dennoch in der Agent-Evaluation das höchste Niveau in der Open-Source-Community erreicht hat. Dies zeigt, dass die Generalisierungsfähigkeit des Modells real ist und nicht durch das Optimieren von Ranglisten erzielt wurde.
V3.2-Speciale: Maximale Inferenzleistung, das Selbstverifikation für die hochgradige Logik nutzt
Speciale ist die "Langdenk-Verstärkte Version" von V3.2. Während V3.2 die Effizienz durch strenge Token-Beschränkungen optimiert, macht Speciale das Gegenteil: Es erweitert die Längenbeschränkung und ermutigt das Modell, tiefere Inferenzen durchzuführen.
Tabelle 3 im technischen Bericht ist sehr interessant: Bei der gleichen Aufgabe ist die Ausgabe-Token-Menge von Speciale deutlich höher als bei anderen Modellen. Beispielsweise bei der AIME 2025 gibt GPT-5 High 13.000 Tokens aus, Gemini 3.0 Pro gibt 15.000 aus, während Speciale 23.000 ausgibt. Bei Codeforces ist die Differenz noch größer: Speciale gibt 77.000 Tokens aus, was das 3,5-fache von Gemini ist.
Obwohl Speciale eine enorme Token-Ausgabe hat, profitiert es von DeepSeeks Preispolitik und der Effizienzsteigerung durch DSA. Selbst wenn man die zusätzlichen "Denkprozesse" berücksichtigt, ist die Endnutzungskosten immer noch weit unter denen der Konkurrenz: Es ist etwa 25-mal billiger als GPT-5 ($0,4 vs. $10), etwa 30-mal billiger als Gemini 3.0 Pro ($12) und etwa 62-mal billiger als Claude Opus 4.5 ($25).
Die Bedeutung von Speciale liegt nicht nur darin, "dem Modell mehr Zeit zum Denken zu geben", sondern auch darin, eine wichtige Hypothese zu überprüfen: Kann die Überwachung des "Prozesses" der Inferenz von mathematischen Beweisen auf ein breiteres Feld übertragen werden?
Das kürzlich veröffentlichte DeepSeekMath-V2 hat ein Doppel-Modell-Architektur mit "Generator - Verifikator" vorgeschlagen. Der Generator erzeugt Beweise, der Verifikator bewertet die Strenge und Vollständigkeit der Beweise, und das Verifikationsergebnis wird als Belohnungssignal an den Generator zurückgegeben. Der Schlüsselinnovation dieser Mechanik liegt darin, wie man die "Generator - Verifikator - Lücke" aufrechterhält. Wenn der Generator stärker wird, muss der Verifikator auch synchron verbessert werden. DeepSeeks Lösung ist die dynamische Erweiterung der Verifikationsrechnung. Mit mehr Rechenleistung werden "schwer zu verifizierende" Beweise automatisch annotiert, und es werden kontinuierlich hochgradige Trainingsdaten synthetisiert, um die nachhaltige Selbstentwicklung des Modells zu erreichen.
Speciale integriert die Datensätze und Belohnungsmethoden von Math-V2. Es strebt nicht nur nach der richtigen Endantwort, sondern auch nach der Strenge und Vollständigkeit des Inferenzprozesses. Es hat diese "Prozessüberwachung", die ursprünglich für mathematische Theorembeweise entwickelt wurde, erfolgreich auf die Codegenerierung und allgemeine Logikaufgaben übertragen. Dies bedeutet, dass "Selbstverifikation" keine Ausnahme im mathematischen Bereich ist, sondern ein generalisierbares Paradigma für die Leistungssteigerung.
Was bringt DeepSeek, das über ausreichende Rechenleistung verfügt?
Einige Internetnutzer haben kommentiert, dass der wichtigste Teil jedes DeepSeek-Papiers immer der Abschnitt "Fazit, Einschränkungen und zukünftige Arbeit" ist. Dies trifft auch auf diesen technischen Bericht zu. Sie schreiben: "Aufgrund der geringeren Gesamt-Trainings-FLOPs liegt die Wissensbreite von DeepSeek-V3.2 immer noch hinter den führenden Closed-Source-Modellen. Wir planen, in zukünftigen Versionen diese Wissenslücke durch die Erhöhung der Vortrainings-Rechenleistung zu schließen."
Im Bericht wird zugegeben, dass aufgrund der geringeren Gesamt-Trainings-FLOPs die Wissensbreite von V3.2 immer noch hinter Gemini 3.0 Pro liegt. Aber DeepSeek hat sich entschieden, nicht auf ein größeres Basis-Modell zu warten, sondern stattdessen die Methodik bis ins Detail zu optimieren. Innerhalb eines Jahres haben sie durch synthetische Daten, Selbstverifikation und umfangreiches Reinforcement Learning die Obergrenze des Nach-Trainings erreicht.
Aus dieser Veröffentlichung kann man auch die Ergebnisse dieses Ansatzes erkennen:
V3.2 wendet die "Selbstentwicklungstechnik" (hoher Reinforcement Learning - Budget, geschlossene Schleife der synthetischen Daten) auf die allgemeine Effizienz an;
Speciale erweitert die Prozess-Belohnung und Selbstverifikations-Mechanik auf die hochgradige Logik-Inferenz.
Beide weisen in die gleiche Richtung: Zukünftige Modelle werden nicht mehr auf die manuelle Anreicherung angewiesen sein, sondern auf das Selbstspiel