Der von Liang Wenfeng unterzeichnete Artikel: Das stärkste Open-Source-Agent-Modell DeepSeek hat die Branche erschüttert.
DeepSeek willt die Open-Source-Modelle wieder in die Spitzengruppe bringen.
Nach Berichten von Zhidongxi am 2. Dezember. Gestern Abend hat DeepSeek zwei neue Modelle veröffentlicht: DeepSeek-V3.2 und DeepSeek-V3.2-Speciale. Dies sind derzeit die leistungsstärksten Modelle von DeepSeek und haben in Benchmarks in verschiedenen Bereichen wie Inferenz und Agenten die beste Leistung unter den globalen Open-Source-Modellen erzielt.
DeepSeek hat angegeben, dass die Standardversion von DeepSeek-V3.2 in öffentlichen Inferenz-Benchmarks das Niveau von GPT-5 erreicht und nur etwas hinter Gemini-3.0-Pro zurückbleibt. Im Vergleich zu Kimi-K2-Thinking ist die Ausgabe-Länge von V3.2 deutlich reduziert, was die Rechenkosten und die Wartezeit der Benutzer erheblich verringert.
Die DeepSeek-V3.2-Speciale, die Version mit verbesserter langfristiger Denkfähigkeit, kombiniert die Theorembeweis-Fähigkeit von DeepSeek-Math-V2 und verfügt über starke Fähigkeiten in der Befolgung von Anweisungen, mathematischen Beweisen und logischen Überprüfungen. Ihre Leistung in den gängigen Inferenz-Benchmarks steht mit der von Gemini-3.0-Pro auf Augenhöhe.
In der Welt der Open-Source-Modelle ist DeepSeek-V3.2 ebenfalls führend. Laut den Daten der autoritativen Plattform für die Bewertung von großen Modellen, Artificial Analysis, ist Kimi-K2-Thinking derzeit das Open-Source-Modell mit der höchsten Intelligenz, wenn man DeepSeek-V3.2 nicht berücksichtigt.
In Benchmarks, in denen die Ergebnisse beider Modelle, DeepSeek-V3.2 und Kimi-K2-Thinking, veröffentlicht wurden und die Testbedingungen identisch waren, hat DeepSeek-V3.2 Kimi-K2-Thinking in jedem Fall übertroffen.
Vergleich der Benchmark-Ergebnisse von DeepSeek-V3.2 und Kimi-K2-Thinking. Die Daten stammen aus offiziellen Quellen.
DeepSeek-V3.2 ist auch das erste Modell von DeepSeek, das Denken in die Werkzeugnutzung integriert, und es unterstützt sowohl den Denkmodus als auch den Nicht-Denkmodus für die Werkzeugaufrufe.
Das DeepSeek-V3.2-Modell hat in der Bewertung von Agenten das höchste Niveau unter den gegenwärtigen Open-Source-Modellen erreicht und die Lücke zwischen Open-Source- und Closed-Source-Modellen erheblich geschlossen. Es ist erwähnenswert, dass V3.2 nicht speziell für die Werkzeuge in diesen Testsets trainiert wurde, was bedeutet, dass V3.2 in realen Anwendungsfällen eine starke Generalisierungsfähigkeit aufweisen kann.
Darüber hinaus hat das DeepSeek-V3.2-Speciale-Modell erfolgreich Goldmedaillen bei der IMO 2025 (Internationalen Mathematik-Olympiade), der CMO 2025 (Chinesischen Mathematik-Olympiade), der ICPC World Finals 2025 (Internationalen Universitäts-Programmierwettbewerb-Weltmeisterschaft) und der IOI 2025 (Internationalen Informatik-Olympiade) gewonnen. Dabei haben die Ergebnisse bei der ICPC und der IOI die zweiten bzw. zehnten Plätze unter den menschlichen Teilnehmern erreicht.
Bei hochkomplexen Aufgaben ist das Speciale-Modell deutlich besser als die Standardversion, verbraucht aber auch deutlich mehr Tokens und ist somit teurer. Derzeit ist DeepSeek-V3.2-Speciale nur für Forschungszwecke verfügbar, unterstützt keine Werkzeugaufrufe und ist noch nicht speziell für alltägliche Gespräche und Schreibaufgaben optimiert.
Derzeit wurden die offizielle Webseite, die App und die API von DeepSeek auf die finale Version DeepSeek-V3.2 aktualisiert. Die Speciale-Version ist derzeit nur als temporärer API-Service verfügbar, um die Community bei der Bewertung und Forschung zu unterstützen. Die DeepSeek-V3.2-Serie von Modellen wurde Open-Source gemacht, und der technische Bericht wurde gleichzeitig veröffentlicht.
Es ist erwähnenswert, dass in der Liste der Autoren des technischen Berichts viele bekannte Namen zu finden sind, wie z.B. Liang Wenfeng, Gründer und CEO von DeepSeek, und Chen Deli, ein Forscher, der vor kurzem im Namen von DeepSeek auf der Welt-Internet-Konferenz in Wuzhen sprach.
Technischer Bericht:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
Open-Source-Link:
DeepSeek-V3.2
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
01. Wird die Lücke zwischen Open-Source- und Closed-Source-Modellen immer größer? DeepSeek hat drei Gründe gefunden
Warum hat sich in den letzten Monaten die Lücke zwischen Open-Source- und proprietären Modellen stetig vergrößert? Dies ist eine Frage, über die das DeepSeek-Team ständig nachdenkt.
Das DeepSeek-Team ist der Meinung, dass es hauptsächlich drei Faktoren gibt, die die Fähigkeiten von Open-Source-Modellen bei komplexen Aufgaben einschränken.
Zunächst bei der Architektur: Open-Source-Modelle verlassen sich hauptsächlich auf den ursprünglichen Attention-Mechanismus, was die Effizienz bei der Verarbeitung langer Sequenzen stark einschränkt. Diese Ineffizienz stellt sowohl für die Skalierung der Bereitstellung als auch für die effektive Nach-Trainingsphase ein erhebliches Hindernis dar.
Zweitens bei der Ressourcenzuweisung: Open-Source-Modelle erhalten in der Nach-Trainingsphase zu wenig Rechenleistung, was ihre Leistung bei schwierigen Aufgaben einschränkt.
Schließlich im Anwendungsfall von Agenten: Im Vergleich zu proprietären Modellen zeigen Open-Source-Modelle in Bezug auf die Generalisierungsfähigkeit und die Befolgung von Anweisungen deutliche Defizite, was die Effektivität bei der realen Bereitstellung behindert.
Um diese entscheidenden Einschränkungen zu beheben, führte DeepSeek zunächst DSA (DeepSeek Sparse Attention) ein, einen effizienten Sparse-Attention-Mechanismus, um die Rechenkomplexität deutlich zu verringern. Diese Architektur löst das Effizienzproblem effektiv und kann die Modellleistung auch bei langen Kontexten aufrechterhalten.
Zweitens entwickelte DeepSeek ein stabiles und skalierbares Reinforcement-Learning-Protokoll, das eine Skalierung der Rechenleistung in der Nach-Trainingsphase ermöglicht. Bemerkenswerterweise beträgt das in diesem Framework zugewiesene Rechenbudget für die Nach-Trainingsphase mehr als 10 % der Kosten des Pre-Trainings, was in der Branche eher ungewöhnlich ist und somit die erweiterten Fähigkeiten des Modells freischaltet.
Drittens schlug DeepSeek ein neues Verfahren vor, um die Generalisierungsfähigkeit bei der Werkzeugnutzung zu fördern. Das Forschungs- und Entwicklungsteam führte die DeepSeek-V3-Methode in der Cold-Start-Phase ein, um die Inferenz und die Werkzeugnutzung in einem einzigen Pfad zu vereinheitlichen.
Anschließend folgte die Synthese von massiven Agentenaufgaben, bei der über 1.800 verschiedene Umgebungen und 85.000 komplexe Prompts generiert wurden. Diese umfangreichen synthetischen Daten treiben den Reinforcement-Learning-Prozess an und verbessern deutlich die Generalisierungsfähigkeit und die Befolgung von Anweisungen des Modells im Kontext von Agenten.
02. Basierend auf der endgültigen Version von DeepSeek-V3.1 entwickelt, macht DSA die Modellberechnung intelligenter
Das von DeepSeek-V3.2 verwendete Architektur ist identisch mit der des zuvor veröffentlichten experimentellen Modells DeepSeek-V3.2-Exp. Im Vergleich zur letzten Version der DeepSeek-V3.1-Serie, DeepSeek-V3.1-Terminus, besteht die einzige architektonische Änderung in DeepSeek-V3.2 darin, dass durch kontinuierliches Training DSA eingeführt wurde.
Der herkömmliche Attention-Mechanismus muss bei der Verarbeitung eines Tokens mit allen vorhergehenden Tokens rechnen, was bei langen Texten sehr zeitaufwändig ist. Das Konzept von DSA besteht darin, zunächst die wichtigsten Tokens schnell auszuwählen und dann nur diese Tokens detailliert zu analysieren.
Diese Auswahl wird durch einen Lightning-Indexer erreicht. Der Lightning-Indexer berechnet die Index-Scores zwischen dem abgefragten Token und den vorhergehenden Tokens, um zu entscheiden, welche Tokens für die Berechnung ausgewählt werden sollen. Da der Lightning-Indexer nur wenige Köpfe hat und in FP8 implementiert werden kann, ist seine Rechenleistung ausgezeichnet.
Nachdem für jedes abgefragte Token der Index-Score berechnet wurde, sucht der feingranulare Token-Auswahlmechanismus nur die Schlüssel-Wert-Einträge ab, die den Top-k-Index-Scores entsprechen, und berechnet die Ausgabe.
Das Training von DeepSeek-V3.2 beginnt mit dem Basis-Checkpoint von DeepSeek-V3.1-Terminus, dessen Kontextlänge bereits auf 128K erweitert wurde.
Während des fortgesetzten Pre-Trainings durchläuft das Modell zunächst eine "dichte Vorwärmphase", in der der vollständige Attention-Mechanismus unverändert bleibt und nur der Indexer trainiert wird, damit er lernt, die Verteilung des ursprünglichen Attention-Mechanismus zu imitieren.
Anschließend beginnt die Sparse-Trainingsphase, in der der echte Token-Auswahlmechanismus eingeführt wird und das gesamte Modell gleichzeitig optimiert wird. Durch diesen schrittweisen Übergang kann das Modell reibungslos vom dichten Attention-Mechanismus zur spärlichen Struktur wechseln, ohne dass es zu einem Leistungsabfall kommt.
In Bezug auf die Fähigkeitsbewertung hat DeepSeek-V3.2-Exp in Standard-Benchmarks, menschlichen Präferenzbewertungen und verschiedenen Aufgaben mit langem Kontext Ergebnisse erzielt, die denen der Vorgängerversion mindestens gleichkommen oder sogar besser sind.
Sowohl der Elo-Score auf ChatbotArena als auch die Tests mit langen Sequenzen wie AA-LCR und Fiction.liveBench zeigen, dass die Einführung des Sparse-Attention-Mechanismus nicht zu einem Verlust der Modellqualität führte, sondern dass das Modell bei der Inferenz von langen Sequenzen sogar deutliche Vorteile hat.
In Bezug auf die tatsächlichen Inferenzkosten reduziert DSA die Kern-Attention-Komplexität des Modells von quadratischer auf annähernd lineare Wachstum, was bedeutet, dass je länger die Sequenz ist, desto deutlicher sind die Einsparungen. Obwohl der Indexer selbst immer noch globale Informationen verarbeiten muss, ist sein Aufwand weit geringer als der des ursprünglichen MLA.
In Kombination mit der technischen Optimierung hat DeepSeek-V3.2 auf der H800 GPU eine deutliche End-to-End-Beschleunigung erreicht und die Effizienz bei kurzen Kontexten durch die Verwendung eines speziellen Maskenmodus weiter verbessert. Insgesamt hat DeepSeek-V3.2 die Leistungsschranke bei der Inferenz von langen Kontexten effektiv überwunden, ohne dass es zu einem Verlust der Fähigkeiten kam.