StartseiteArtikel

Die Open-Source-Version der DeepSeek-V3.2-Serie ist verfügbar, und ihre Leistung ist direkt mit der von Gemini-3.0-Pro vergleichbar.

量子位2025-12-02 08:52
Open-Source-Modelle punkten wieder hoch auf DS.

Überfall!

Zum dritten Jahrestag der Veröffentlichung von ChatGPT hat DeepSeek plötzlich zwei Modelle vorgestellt:

  • DeepSeek-V3.2
  • DeepSeek-V3.2-Speciale

Das erste Modell konzentriert sich auf ein ausgewogenes Niveau der Praktikabilität und eignet sich für alltägliche Fragen, allgemeine Agentenaufgaben und die Verwendung von Tools in realen Anwendungsumgebungen.

Die Inferenzfähigkeit erreicht das Niveau von GPT-5, liegt jedoch etwas hinter Gemini-3.0-Pro.

Das zweite Modell setzt auf maximale Inferenzfähigkeit und ist in Bezug auf die Leistung in Inferenzbenchmarks mit Gemini-3.0-Pro vergleichbar.

Außerdem hat es Goldmedaillen bei der IMO 2025, CMO 2025, ICPC World Finals 2025 und IOI 2025 gewonnen.

Wichtig zu erwähnen: Bei der ICPC erreichte es das Niveau des zweiten Platzes unter den menschlichen Teilnehmern, bei der IOI das Niveau des zehnten Platzes.

Konkret gesagt legt DeepSeek-V3.2 den Schwerpunkt auf ein ausgewogenes Verhältnis zwischen Inferenzfähigkeit und Ausgabelänge und reduziert die Rechenkosten.

In einer Tweet-Nachricht auf der offiziellen DeepSeek-Social-Media-Seite steht: „Das DeepSeek-V3.2-Modell hat in der Agentenbewertung das höchste Niveau unter den derzeitigen Open-Source-Modellen erreicht.“

Weitere Informationen über das Modell sind wie folgt:

  • Die Inferenzfähigkeit ist mit der von GPT-5 vergleichbar;
  • Im Vergleich zu Kimi-K2-Thinking wird die Ausgabelänge stark verkürzt, wodurch die Wartezeit für die Benutzer reduziert wird;
  • Es ist das erste Modell von DeepSeek, das „Denken in die Toolnutzung integriert“ und unterstützt die Toolnutzung in beiden Modi: mit und ohne aktives Denken;
  • Aufgrund von umfangreichen Agenten-Trainingsdaten aus über 1800 Umgebungen und mehr als 85.000 komplexen Anweisungen verfügt es über eine starke Generalisierungsfähigkeit.

Das folgende Bild zeigt die Punktzahlen von DeepSeek-V3.2 und anderen Modellen in verschiedenen Agenten-Toolnutzungs-Bewertungsdatensätzen.

– Besonders hervorzuheben ist, dass DeepSeek-V3.2 nicht speziell für die Tools in diesen Testdatensätzen trainiert wurde.

DeepSeek-V3.2-Speciale ist eine Version von DeepSeek-V3.2 mit verbesserter Fähigkeit zur langfristigen Reflexion und integriert die Theorembeweisungsfähigkeit von DeepSeek-Math-V2.

Bei der Befolgung von Anweisungen, mathematischen Beweisen und logischen Verifikationen zeichnet sich DeepSeek-V3.2-Speciale durch herausragende Fähigkeiten aus und wird für hochkomplexe mathematische Inferenzaufgaben, Programmierwettbewerbe und akademische Forschungsaufgaben empfohlen.

Besonderer Hinweis! Diese Version ist derzeit nicht speziell für alltägliche Gespräche und das Schreiben optimiert.

Außerdem ist sie nur für Forschungszwecke bestimmt und unterstützt keine Toolnutzung.

Bei hochkomplexen Aufgaben ist das Speciale-Modell deutlich besser als die Standardversion, verbraucht aber auch deutlich mehr Tokens und ist somit teurer.

Derzeit wurden sowohl die App als auch die Webseite von DeepSeek auf die offizielle Version DeepSeek-V3.2 aktualisiert; die Speciale-Version ist derzeit nur über die temporäre API verfügbar.

Zur gleichen Zeit wie die Modellveröffentlichung wurde auch ein technischer Bericht veröffentlicht.

Die in der Veröffentlichung enthaltenen technischen Details sind sehr aufschlussreich:

Ein neues sparses Attention-Mechanismus namens DSA reduziert die Rechenkomplexität erheblich, die Rechenleistung für das Reinforcement Learning übersteigt 10 % der Vorhersageleistung, und es gibt eine neue Pipeline zur Synthese von umfangreichen Agentenaufgaben …

Wir werden uns die Einzelheiten genauer ansehen.

Einführung des effizienten sparsen Attention-Mechanismus DSA: Lange Texte sind kein Problem mehr

Die größte architektonische Innovation von DeepSeek-V3.2 ist die Einführung des DSA (DeepSeek Sparse Attention) Mechanismus.

Der traditionelle Attention-Mechanismus hat bei der Verarbeitung langer Sequenzen eine Rechenkomplexität von O(L²), was die Effizienz der Modellbereitstellung und die Skalierbarkeit der anschließenden Trainingsprozesse erheblich einschränkt.

DSA reduziert die Rechenkomplexität auf O(L·k), wobei k viel kleiner als L ist.

Gleichzeitig beschleunigt DSA die Inferenz in Aufgaben mit langem Kontext erheblich, ohne dass nennenswerte Einbußen bei der Leistung auftreten.

Es unterstützt die FP8-Präzision und ist kompatibel mit der MLA (Multi-Query Attention) Architektur, was das Training erleichtert.

Wie wird das erreicht?

DSA besteht hauptsächlich aus zwei Komponenten: einem sog. Lightning Indexer (Blitzindexer) und einem Mechanismus zur feingranularen Tokenauswahl (fine-grained token selection).

Der Lightning Indexer berechnet schnell die Korrelationswerte zwischen Suchtokens und vergangenen Tokens und wählt dann nur die k am besten korrelierenden Tokens für die Attention-Berechnung aus.

Das Team hat bewusst die ReLU-Aktivierungsfunktion gewählt, um den Durchsatz zu erhöhen.

Beim Weitertraining von DeepSeek-V3.1-Terminus verwendete das Team eine zweistufige Strategie.

In der ersten Stufe, der Dense Warm-up-Phase, behielt es die dichte Attention bei und trainierte nur den Lightning Indexer, damit er die Verteilung der Hauptattention lernt.

Diese Phase dauerte nur 1.000 Schritte und verarbeitete 2,1 Milliarden Tokens.

In der zweiten Stufe wurde der sparse Mechanismus eingeführt. Jeder Suchtoken wählt 2.048 Key-Value-Paare aus, und das Training dauerte 15.000 Schritte und verarbeitete insgesamt 943,7 Milliarden Tokens.

Die praktischen Ergebnisse waren sehr beeindruckend:

Bei einer Sequenzlänge von 128.000 Tokens wurde die Inferenzkosten von DeepSeek-V3.2 im Vergleich zu V3.1-Terminus um ein Vielfaches reduziert.

Tests auf einem H800-Cluster zeigten, dass bei einer Sequenzlänge von 128.000 Tokens die Kosten pro Million Tokens in der Vorbelegungsphase von 0,7 US-Dollar auf etwa 0,2 US-Dollar sanken und in der Dekodierungsphase von 2,4 US-Dollar auf 0,8 US-Dollar.

Die Rechenleistung nach dem Training übersteigt 10 % der Vorhersageleistung

Es ist bemerkenswert, dass das DeepSeek-Team diesmal sehr viel in das Reinforcement Learning investiert hat.

In der Veröffentlichung wird klar erwähnt, dass der Rechenaufwand für das RL-Training bereits über 10 % der Kosten für das Vorhersagetraining hinausgeht, was bei Open-Source-Modellen recht selten ist.

DeepSeek erwähnt in seinem technischen Bericht, dass die fehlende Investition in Rechenressourcen in der Post-Trainingsphase von Open-Source-Modellen ihre Leistung bei schwierigen Aufgaben einschränkt.

Dafür hat das Team ein stabiles und skalierbares RL-Protokoll entwickelt, das den Rechenaufwand in der Post-Trainingsphase über 10 % der Kosten für das Vorhersagetraining hinaus erhöht und so die fortschrittlichen Fähigkeiten des Modells freischaltet.

Hier sind die Details:

Um die RL-Rechenleistung stabil zu skalieren, hat das Team mehrere Verbesserungen an dem GRPO (Group Relative Policy Optimization)-Algorithmus vorgenommen.

Erstens die unvoreingenommene KL-Schätzung: Die ursprüngliche K3-Schätzung wurde korrigiert, um systematische Fehler zu beseitigen.

Der ursprüngliche Schätzer gab in einigen Fällen unbegrenzte Gradientengewichte, was zu instabilem Training führte.

Zweitens die Offline-Sequenzmaskierungsstrategie.

Bei der praktischen Durchführung des Trainings werden normalerweise große Mengen an Rollout-Daten generiert und dann in mehrere Mini-Batches aufgeteilt, um die Gradienten zu aktualisieren. Diese Vorgehensweise führt von sich aus zu Off-Policy-Verhalten.

Das Team berechnet die KL-Divergenz zwischen der Datensampling-Strategie und der aktuellen Strategie und maskiert die negativen Beispielsequenzen, die zu weit abweichen, um sie nicht in das Training einzubeziehen.

Das Team hat außerdem einen speziellen Keep Routing-Vorgang für MoE-Modelle entwickelt.

Unterschiede zwischen der Implementierung des Inferenz- und des Trainingsframeworks können dazu führen, dass dasselbe Eingangssignal unterschiedliche Experten aktiviert, was zu sprunghaften Änderungen im Parameterspace führt. Indem der Routingpfad während der Inferenz gespeichert und bei der Durchführung des Trainings derselbe Pfad erzwungen wird, wird die Konsistenz der Parameteroptimierung gewährleistet.

Beim konkreten Training hat das Team die Strategie der Experten-Distillation gewählt.

Zunächst wurden spezielle Modelle für jede Aufgabe trainiert, darunter in den sechs Bereichen Mathematik, Programmieren, allgemeine logische Inferenz, allgemeine Agentenaufgaben, Agentenprogrammierung und Agentensuche. Jeder Bereich unterstützt sowohl den Denk- als auch den Nicht-Denkmodus.

Dann wurden diese Expertenmodelle verwendet, um datenspezifische Daten für das Endmodell zu generieren.

Breakthrough in der Agentenfähigkeit

Außerdem hat das neue Modell in Bezug auf die Agentenaufgaben beeindruckende Fortschritte erzielt.

Diesmal hat das Team eine Methode gefunden, um dem Modell gleichzeitig Inferenz- und Toolnutzungsfähigkeiten zu verleihen.

Beim Management des Denkontexts hat das Team festgestellt, dass die Strategie von DeepSeek-R1, die Inferenzinhalte bei jedem neuen Gespräch zu verwerfen, einen enormen Verlust an Tokens bedeutet.

Deshalb wurde ein neues Managementkonzept entwickelt:

Die historischen Inferenzinhalte werden nur verworfen, wenn eine neue Benutzeranfrage gestellt wird. Wenn nur Tool-bezogene Nachrichten hinzugefügt werden, bleiben die Inferenzinhalte erhalten. Selbst wenn die Inferenzspuren gelöscht werden, bleiben die Toolnutzungsverläufe und die Ergebnisse im Kontext erhalten.

Während der Cold-Start-Phase hat das DeepSeek-V3.2-Team eine geschickte Prompt-Design-Strategie gewählt.

Das Team hat durch sorgfältig entworfene Systemhinweise bewirkt, dass das Modell lernt, die Toolnutzung natürlich in den Inferenzprozess einzubauen.

Beispielsweise wird bei der Bearbeitung von Programmierwettbewerbsaufgaben vom System verlangt, dass das Modell zunächst nachdenkt und erst dann eine Antwort gibt, und die Inferenzpfade werden mit speziellen Markierungen gekennzeichnet.

Das beeindruckendste ist