StartseiteArtikel

Zum dritten Jahrestag von ChatGPT wird es von DeepSeek heftig getroffen. Der 23-seitige Technologiebericht verbirgt alle Geheimnisse für den Aufstieg zur Spitze im Open-Source-Bereich.

爱范儿2025-12-02 08:13
Langsam, dumm, unflexibel? DeepSeek V3.2 bringt neue High-Tech-Funktionen.

Zum dreijährigen Jubiläum der Entstehung von ChatGPT bringt DeepSeek ein „Geburtstagsgeschenk“ mit.

Gerade eben hat DeepSeek auf einmal zwei Modelle veröffentlicht: DeepSeek-V3.2 und DeepSeek-V3.2-Speciale. Diese beiden Modelle kommen nicht nur in der Inferenzfähigkeit GPT-5 und Gemini-3.0-Pro sehr nahe, sondern lösen vor allem ein seit langem bestehendes Problem bei Open-Source-Modellen:

Wie kann man es einem KI-System ermöglichen, tiefgründig zu denken und gleichzeitig Werkzeuge beherrscht zu nutzen?

Die Kurzfassung der neuen Modelle lautet wie folgt:

  • DeepSeek-V3.2 (Standardversion): Der Fokus liegt auf Kosteneffizienz und Alltagsgebrauch. Die Inferenzfähigkeit erreicht das Niveau von GPT-5. Die Ausgabe ist kürzer, schneller und kostengünstiger als die von Kimi-K2-Thinking. Darüber hinaus wird erstmals das Konzept „Denken und Werkzeugnutzen gleichzeitig“ realisiert. Die Website, die APP und die API sind alle auf diese Version aktualisiert und eignen sich für alltägliche Fragen, Schreibaufgaben und Agentenaufgaben.
  • DeepSeek-V3.2-Speciale (Ultimative Verstärkte Version): Diese Version zielt auf die Erforschung der oberen Grenzen der KI-Fähigkeiten. Die Leistung ist mit der von Gemini-3.0-Pro vergleichbar. Sie hat in den Wettbewerben 2025 IMO, IOI und ICPC Goldmedaillen gewonnen (10. Platz bei IOI unter den Menschen, 2. Platz bei ICPC). Es wird nur eine temporäre API angeboten. Die Denkkette ist lang, der Token-Verbrauch hoch und die Kosten sind erheblich. Die Werkzeugaufrufe werden nicht unterstützt, und die alltäglichen Gespräche sind nicht optimiert. Der Service endet am 15. Dezember 2025.

Die Gewichte beider Modelle sind auf HuggingFace und ModelScope open source veröffentlicht. Sie können sie herunterladen und lokal deployen.

Langsam, dumm, stumpf? DeepSeek V3.2 bringt neue High-Tech-Funktionen

In den letzten Monaten hat sich im KI-Bereich ein deutlicher Trend herauskristallisiert: Die Closed-Source-Modelle werden immer schneller, während die Open-Source-Modelle Schwierigkeiten haben, Schritt zu halten. Das DeepSeek-Team hat festgestellt, dass es bei Open-Source-Modellen bei der Bearbeitung komplexer Aufgaben drei Kernengpässe gibt: Architekturprobleme, Ressourcenallokation und Fähigkeiten des Agenten.

Für diese drei Probleme hat DeepSeek diesmal drei Pendants parat.

Wenn Sie einige KI-Modelle zur Verarbeitung von sehr langen Dokumenten verwendet haben, haben Sie möglicherweise festgestellt, dass die Verarbeitung immer langsamer wird oder sogar abstürzt. Dies liegt an der traditionellen Attention-Mechanik.

Die Logik der traditionellen Attention-Mechanik ist folgende: Jedes Wort muss mit allen vorherigen Wörtern in Bezug gesetzt werden. Je länger das Dokument ist, desto größer ist der Rechenaufwand. Es ist wie wenn Sie in einer WeChat-Gruppe mit 1000 Personen jemanden suchen. Bevor Sie etwas sagen, müssen Sie jedes Mal überprüfen, ob diese 1000 Personen derjenige sind, den Sie suchen. Dies ist offensichtlich eine sehr mühsame Aufgabe.

DeepSeek hat diesmal die DSA (Sparse Attention Mechanism) eingeführt, die einen anderen Ansatz verfolgt: Es ist nicht notwendig, jedes Wort zu beachten, sondern nur die wirklich wichtigen Teile.

Der Kern davon ist etwas namens „Blitz-Indexer“.

Dieser Indexer bewertet jedes Wort schnell und wählt dann nur die Wörter mit den höchsten Bewertungen aus, um die Attention zu berechnen. Es ist wie wenn Sie in einer Gruppe von 1000 Personen zuerst diejenigen mit dem Namen „Zhang“ mit der Suchfunktion filtern und dann aus diesen 50 Personen den gewünschten Zhang San suchen. Die Effizienz steigt sofort.

Was noch klüger ist, ist, dass der Blitz-Indexer nur wenige Rechenressourcen verwendet und die FP8-Präzisionsrechnung unterstützt (eine Rechenmethode mit niedriger Präzision, aber hoher Effizienz). Daher wird er selbst keine neue Leistungsschranke darstellen.

Wie sieht es mit den tatsächlichen Ergebnissen aus? V3.2 unterstützt eine Kontextlänge von 128K, was der Länge eines mittelgroßen Romans entspricht. Die Verarbeitungsgeschwindigkeit und -effizienz sind jedoch deutlich verbessert. Laut offiziellen Tests in verschiedenen Szenarien ist die Leistung der DSA-Version der traditionellen Attention-Mechanik in keinster Weise unterlegen und in einigen Szenarien sogar besser.

V3.2 basiert auf der vorherigen Version V3.1-Terminus und hat die DSA durch kontinuierliches Training eingeführt. Der gesamte Prozess gliedert sich in zwei Phasen und verwendet die gleiche Datenverteilung wie bei der Erweiterung von V3.1-Terminus auf 128K, um einen reibungslosen Übergang der Modellfähigkeiten sicherzustellen.

Darüber hinaus reicht es nicht aus, nur über eine gute Architektur zu verfügen. Das Training muss ebenfalls auf dem neuesten Stand sein.

Ein weiterer Unterschied zwischen Open-Source- und Closed-Source-Modellen besteht darin, dass Open-Source-Modelle in der späten Phase des Trainings zu wenige Rechenressourcen investieren. Es ist wie beim Bauen eines Hauses: Wenn das Budget aufgebraucht ist, wird die Einrichtung eher schlampig gemacht. Am Ende stellen Sie fest, dass es überall Probleme gibt.

Der technische Bericht zeigt, dass DeepSeek im Nach-Trainingsphase einen Rechenbudget von mehr als 10% der Kosten des Pre-Trainings investiert. Aber das Investieren von Geld ist auch eine Kunst. DeepSeek hat ein „stabiles und erweiterbares Rahmenwerk für das Training mit verstärkter Lernweise“ entwickelt. Dieses Rahmenwerk hat zwei Merkmale.

Erstens ist es stabil. Das Training mit verstärkter Lernweise ist an sich nicht sehr stabil und neigt zu Problemen wie Trainingsabbrüchen und Leistungsschwankungen. Das DeepSeek-Rahmenwerk kann das Training bei großem Rechenaufwand stabil halten, was an sich ein technologischer Durchbruch ist.

Zweitens ist es erweiterbar. Dieses Rahmenwerk ermöglicht es, dass das Rechenbudget in der Nach-Trainingsphase weit über die traditionellen Methoden hinausgeht, um die fortschrittlichen Fähigkeiten des Modells freizusetzen.

Der konkrete Trainingsablauf gliedert sich in zwei Schritte.

Der erste Schritt ist die „Experten-Distillation“. Sie haben in sechs speziellen Bereichen wie Mathematik, Programmierung, logischer Inferenz und Agentenaufgaben jeweils spezielle Expertenmodelle trainiert. Jedes Expertenmodell wurde unter großem Rechenaufwand mit verstärkter Lernweise trainiert und hat Trainingsdaten sowohl für das „Denkmodell“ (langkettiges Denken) als auch für das „Nicht-Denkmodell“ (direkte Antwort) generiert.

Nachdem die Expertenmodelle trainiert wurden, werden sie verwendet, um die Trainingsdaten für das endgültige Modell zu generieren. Die Experimentergebnisse zeigen, dass die Leistung der Modelle, die mit diesen Experten-Distillationsdaten trainiert wurden, nur geringfügig schlechter ist als die der entsprechenden Expertenmodelle, und dieser Unterschied kann in der anschließenden Phase des Trainings mit verstärkter Lernweise ausgeglichen werden.

Der zweite Schritt ist das „gemischte Training mit verstärkter Lernweise“. DeepSeek setzt weiterhin GRPO (Group Relative Policy Optimization) als Haupttrainingsalgorithmus ein und integriert die Inferenzaufgaben, Agentenaufgaben und Aufgaben zur Anpassung an menschliche Präferenzen in eine Phase des Trainings mit verstärkter Lernweise.

Der Vorteil dieses einheitlichen Trainings besteht darin, dass es sowohl die Leistung in verschiedenen Aufgabenbereichen verbessert als auch das Problem des „katastrophalen Vergessens“, das bei der traditionellen mehrstufigen Training üblich ist, vermeidet. Sie können es sich so vorstellen: Die KI lernt neue Fähigkeiten, ohne die alten zu vergessen.

Bei den Inferenz- und Agentenaufgaben werden regelbasierte Ergebnisbelohnungen, Strafen für die Ausgabe-Länge und Belohnungen für sprachliche Konsistenz verwendet, um das Modell zu lernen. Bei den allgemeinen Aufgaben wird ein generatives Belohnungsmodell verwendet, und die Bewertungskriterien werden für jede Eingabe separat definiert.

V3.2 ist die stabile Version, die nach Tausenden von Trainingsschritten in diesem gemischten Training mit verstärkter Lernweise entstanden ist. Die Speciale-Version ist noch radikaler. Sie wird nur auf Inferenzaufgabendaten trainiert, verringert die Strafen für die Ausgabe-Länge und führt das Datensatz und das Belohnungsmechanismus von DeepSeekMath-V2 ein, um die Fähigkeiten in der mathematischen Beweisführung weiter zu verbessern.

Das Ergebnis ist: Die Inferenzfähigkeit von V3.2 ist auf das Niveau von GPT-5 gestiegen, während die Leistung der Speciale-Version, da die Beschränkung der Denklänge aufgehoben ist, sich dem Niveau von Gemini-3.0-Pro nähert.

Denken + Werkzeugaufruf: Die KI lernt, „gleichzeitig zu denken und zu handeln“

Frühere DeepSeek-Modelle hatten ein peinliches Problem: Wenn sie in den „Denkmodus“ eintraten, konnten sie keine Werkzeuge wie Suchfunktionen oder Codeausführung aufrufen. Es ist wie wenn eine Person in die Gedanken versunken ist und ihre Hände still liegen. Dies entspricht nicht unserer Art, komplexe Probleme zu lösen.

In der Realität suchen wir bei Problemen oft nach Informationen, während wir denken, analysieren und überprüfen gleichzeitig. Denken und Handeln gehen Hand in Hand. Die KI sollte ebenfalls so funktionieren.

Das DeepSeek-Team hat festgestellt, dass die direkte Wiederholung der Strategie von DeepSeek-R1 (Verwerfen der vorherigen Inferenzinhalte nach dem Empfang der zweiten Nachricht) die Effizienz der Token-Nutzung erheblich verringert. Diese Methode zwingt das Modell, jedes Mal, wenn es ein Werkzeug aufruft, die gesamte Inferenz von vorne zu wiederholen, was zu einer Verschwendung von Ressourcen führt.

Für den Werkzeugaufruf-Szenario haben sie ein „Management-Mechanismus für den Denk-Kontext“ entwickelt.

Die Kernlogik ist folgende: Die historischen Inferenzinhalte werden nur gelöscht, wenn der Benutzer eine neue Nachricht sendet. Wenn nur werkzeugbezogene Informationen hinzugefügt werden (z. B. das Ergebnis des Werkzeugaufrufs), werden die vorherigen Inferenzinhalte beibehalten, damit der Inferenzprozess fortgesetzt werden kann.

Gleichzeitig bleiben die Aufrufhintergrund und die Ergebnisse des Werkzeugaufrufs im Kontext erhalten, wenn die Inferenzinhalte entfernt werden, um sicherzustellen, dass das Modell bei der anschließenden Inferenz weiterhin auf die vorhandenen Informationen zurückgreifen kann.

So kann die KI folgendes tun: Sie denkt zunächst, ruft dann ein Werkzeug auf (z. B. Suchfunktion oder Codeausführung), sieht das Ergebnis und denkt weiter, ruft dann erneut ein Werkzeug auf und so weiter. Die historischen Inferenzinhalte bleiben erhalten, und es ist nicht notwendig, jedes Mal von vorne anzufangen, wenn ein Werkzeug aufgerufen wird.

Das von der offiziellen Seite gegebene Beispiel ist sehr anschaulich: Die Planung einer komplexen dreitägigen Reise, die verschiedenen Budgetbeschränkungen, Bewertungsanforderungen und das Prinzip der Nichtwiederholung erfüllen muss. Beispielsweise darf bei der Buchung eines Luxushotels (über 800 Yuan) am zweiten Tag die Gesamtkosten für Mittag- und Abendessen nicht mehr als 350 Yuan betragen, die Bewertungen der Restaurants müssen alle über 4,0 Punkten liegen und die Eintrittskarten für die Nachmittagsattraktionen müssen unter 120 Yuan liegen. Bei einem Mittelklassehotel (500 bis 800 Yuan) muss mindestens ein Restaurant eine Bewertung von 4,0 Punkten erreichen, und die Eintrittskarten für die Attraktionen müssen unter 180 Yuan liegen.

Eine solche Aufgabe erfordert, dass die KI wiederholt Informationen über Hotels, Restaurants und Attraktionen sucht und gleichzeitig logische Inferenzen und Beschränkungen prüft. V3.2 kann während der Suche denken und schließlich die perfekte Antwort geben.

Beachten Sie jedoch Folgendes: Einige Agenten-Frameworks (z. B. Roo Code oder Terminus) simulieren die Werkzeuginteraktion über Benutzer-Nachrichten. Aufgrund ihrer Art des Kontextmanagements können diese Architekturen möglicherweise nicht voll aus dem Vorteil des Mechanismus zur Beibehaltung der Inferenzinhalte profitieren. Für solche Systeme wird von der offiziellen Seite empfohlen, lieber den „Nicht-Denkmodus“ zu verwenden.

Der Denkmodus von V3.2 unterstützt bereits Claude Code und kann in der Befehlszeile verwendet werden. Komponenten wie Cline und RooCode, die nicht-standardis