StartseiteArtikel

DeepSeek V3.2 ist veröffentlicht! Die praktischen Tests ergeben beeindruckende Ergebnisse, und die Kostengünstigkeit ist der größte Vorteil.

雷科技2025-12-03 11:56
Die Senkung der Kosten ist von großer Bedeutung.

Xiaolei hat festgestellt, dass DeepSeek scheinbar wirklich gerne in der späten Nacht Überraschungen für alle bereithält.

Am Abend des 1. Dezember hat DeepSeek plötzlich ein Update durchgeführt: Die Version V3.2 ist offiziell online gegangen und allen Benutzern zugänglich gemacht worden. Gleichzeitig wurde in verschiedenen Open-Source-Communities das lokale Deploymentsmodell von V3.2 hochgeladen, damit alle Benutzer es nutzen können. Laut den offiziell veröffentlichten Testergebnissen kommt die Inferenzfähigkeit von DeepSeek V3.2 im Wesentlichen der von OpenAIs GPT-5 nahe, aber die Kosten sind weit niedriger als die von GPT-5. Man kann sagen, dass schon allein dieser Aspekt viele Menschen begeistern wird.

Genug mit den Worten, lassen Sie uns direkt zum Thema kommen und sehen, welche Verbesserungen DeepSeek uns diesmal bringt.

Stärkere Inferenz und niedrigere Kosten

DeepSeek V3.2 gibt es in zwei Versionen. Eine ist die auf der offiziellen DeepSeek-Website kostenlos nutzbare Version DeepSeek V3.2, die andere ist die DeepSeek V3.2-Speciale, die nur über API-Servicezugang verfügbar ist. Laut der offiziellen Beschreibung hat die Speciale-Version eine stärkere Inferenzfähigkeit und wird hauptsächlich zur Erforschung der Grenzen der Inferenzfähigkeit aktueller Modelle verwendet.

Die V3.2-Speciale geht nicht nur automatisch in den "Modus für intensive Nachdenken" über, sondern kombiniert auch die Theorembeweisungsfähigkeit von DeepSeek-Math-V2, so dass sie über stärkere Befolgungsfähigkeit von Anweisungen, mathematische Beweisungsfähigkeit und logische Verifikationsfähigkeit verfügt. Bei den offiziellen Tests hat die V3.2-Speciale in den Inferenz-Benchmarktests direkt mit der neuesten Gemini-3.0-Pro mithalten können.

Quelle: DeepSeek

Zusätzlich hat DeepSeek mit der V3.2-Speciale die Endrundenaufgaben von vier Wettbewerben wie der IMO 2025 (Internationale Mathematik-Olympiade), der CMO 2025 (Chinesische Mathematik-Olympiade), der ICPC World Finals 2025 (Weltmeisterschaft der internationalen Hochschulprogrammierungswettbewerbe) und der IOI 2025 (Internationale Informatik-Olympiade) getestet und in allen Fällen Goldmedaillen erzielt.

Insbesondere bei den Tests der ICPC und der IOI hat es direkt die Niveaus des zweiten und zehnten Platzes von menschlichen Teilnehmern erreicht. Daraus lässt sich leicht erkennen, dass DeepSeek V3.2 in Bereichen wie der Programmierung offensichtlich größere Fortschritte gemacht hat. Und bei einem Vergleich hat die V3.2-Speciale in allen Wettbewerben die Ergebnisse von GPT-5 High übertroffen, was OpenAI sicher überrascht hat.

Quelle: DeepSeek

In der offiziellen Technischen Dokumentation wird erwähnt, dass der Hauptbruch durch DeepSeek V3.2 die Einführung des DeepSeek Sparse Attention (DSA)-Mechanismus ist, und durch das Design von zwei Versionen werden die Inferenzanforderungen in verschiedenen Szenarien erfüllt.

Die Implementierung des DSA-Mechanismus hat grundsätzlich das Problem der Effizienz von Attention in großen KI-Modellen gelöst. Genauer gesagt berechnet der traditionelle Attention-Mechanismus bei der Ausführung die Beziehungen zwischen allen Elementen in einer Sequenz, während der DSA-Mechanismus "selektiv" die Beziehungen zwischen einigen Schlüssel-Elementen berechnet, was die zu berechnenden Daten erheblich reduziert.

Tatsächlich hat DeepSeek ähnliche Technologien schon in einer Veröffentlichung Anfang des Jahres angekündigt. Damals hat Xiaolei einen Artikel geschrieben, in dem er den neuen Attention-Mechanismus NSA von DeepSeek interpretiert hat. Aber in den folgenden Updates von DeepSeek-Modellen ist der NSA-Mechanismus nie öffentlich geworden, so dass Xiaolei dachte, dass es bei der Implementierung dieses Mechanismus Probleme gegeben haben könnte.

Jetzt scheint es jedoch so, dass es keine Probleme gab, sondern dass DeepSeek eine bessere Umsetzungsmethode gefunden hat. Der NSA aus der Veröffentlichung Anfang des Jahres war bei der Verarbeitung von langen Textdaten eher wie ein Index von Buchtiteln in einer Bibliothek. Wenn man ein Problem hatte, konnte man über den Index schnell den entsprechenden Bereich finden und dann die Informationen suchen.

Quelle: LLM

Der DSA ist eher wie ein Suchmotor. Bei der Verarbeitung von langen Texten liest er zunächst schnell den gesamten Text und erstellt dann einen "Blitz-Indexer". Wenn man später Daten suchen muss, kann man über Schlüsselwörter schnell den relevanten Inhalt bestimmen. Anders als der NSA mit seiner festen Suchregion ist der DSA nicht nur intelligenter und genauer, sondern verbraucht auch weniger Ressourcen.

Mit der Unterstützung des DSA-Mechanismus kann die Kosten für die Inferenz einer 128K-Sequenz um mehr als 60 % gesenkt werden, die Inferenzgeschwindigkeit um etwa 3,5 Mal erhöht werden, der Speicherbedarf um 70 % reduziert werden, und die Leistung des Modells selbst nimmt nicht deutlich ab. Man kann sagen, dass dies die Leistung von großen KI-Modellen im Bereich Attention grundlegend verändert.

Laut den offiziellen Daten, wenn man ein KI-Modell auf einem H800-Cluster testet und die Sequenzlänge 128K erreicht, sinkt die Kosten pro Million Tokens in der Vorauffüllphase von 0,7 US-Dollar auf etwa 0,2 US-Dollar, und in der Dekodierungsphase von 2,4 US-Dollar auf 0,8 US-Dollar. Dies macht DeepSeek V3.2 möglicherweise zum Modell mit den niedrigsten Kosten für die Inferenz von langen Texten unter den großen KI-Modellen gleicher Klasse.

Nicht nur denken, sondern auch "Werkzeuge" nutzen

Außer dem DSA-Mechanismus gibt es noch ein Kernupdate in DeepSeek V3.2: Es erlaubt es dem großen KI-Modell, in den Denkmodus Werkzeuge aufzurufen. Die offizielle Seite sagt, dass weder das Aufrufen noch das Verwenden von Werkzeugen trainiert werden muss. Dies verleiht DeepSeek V3.2 eine stärkere allgemeine Leistung und als Open-Source-Modell kann es besser mit selbstgemachten Werkzeugen der Benutzer kompatibel sein.

Um die neuen Eigenschaften von DeepSeek V3.2 zu überprüfen, hat Xiaolei einige Fragen entworfen, um zu sehen, wie es antwortet. Zuerst schauen wir uns die Leistung im Denkmodus an:

Frage: A ist drei Jahre älter als B, und B ist zwei Jahre älter als C. In fünf Jahren wird das Alter von A genau doppelt so groß wie das von C sein. Wie alt sind die drei Personen jetzt?

Antwort:

Quelle: Lei Technology

Die Antwort ist richtig, aber das Wichtigste ist der Denkprozess:

Quelle: Lei Technology

Man kann sehen, dass DeepSeek nach der Berechnung des Ergebnisses die Antwort wiederholt überprüft und überprüft, ob die Antwort in verschiedenen Situationen immer noch richtig ist oder ob es andere Probleme gibt. Bevor es die endgültige Antwort ausgibt, hat DeepSeek insgesamt drei Runden von Antwortverifikationen durchgeführt.

Obwohl es so scheint, dass es viel Rechenleistung verschwendet, ist dieser Ansatz der mehrfachen Verifikation notwendig, um die Richtigkeit der Antworten im DSA-Mechanismus besser zu gewährleisten. Andernfalls würde die Wahrscheinlichkeit von Fehlern in DeepSeeks Sparse-Architektur höher sein als in anderen KI-Systemen.

Dann habe ich auch eine Aufgabe mit mehreren Schritten entworfen:

Suche die heutige Temperatur in Peking.

Konvertiere die Temperatur in Fahrenheit.

Rufe ein Werkzeug auf, um zu überprüfen, ob deine Umrechnung richtig ist.

Zusammenfasse am Ende in einem Satz, ob es heute für Outdoor-Aktivitäten geeignet ist.

Hinweis: Du musst selbst entscheiden, wann du ein Werkzeug aufrufst und kannst nicht alles auf einmal erledigen.

Schauen wir uns den Denkprozess von DeepSeek an:

Quelle: Lei Technology

Man kann sehen, dass es die Anforderungen der Frage gut verstanden hat und beginnt, Schritt für Schritt Such- und Mathematik-Werkzeuge zu verwenden, um das Problem zu lösen. Am Ende hat es die Antwort ausgegeben:

Quelle: Lei Technology

Die Antwort ist insgesamt korrekt nach den Schritten gegeben worden, und am Ende hat es auch automatisch ein Mathematik-Werkzeug ausgewählt, um das Umrechnungsergebnis zu bestätigen. Aber es gibt auch einen seltsamen Punkt: DeepSeek hat die Antwort auf die Frage "Zusammenfassen, ob es heute für Outdoor-Sport geeignet ist" aus dem Denkprozess verloren. Aber trotz dieses kleinen Fehlers hat DeepSeek tatsächlich die Fähigkeit zur autonomen Entscheidung, welche Werkzeuge verwendet werden sollen.

Zum Vergleich: Ein anderes KI-System hat bei der gleichen Frage zwar die Anforderungen wie "Werkzeug aufrufen" verstanden, aber bei der Ausführung der Schritte hat es einfach die entsprechenden Daten gesucht und in die Antwort eingefügt:

Quelle: Lei Technology

Tatsächlich gibt es auch ähnliche Probleme in der Anleitung für das Aufrufen von Werkzeugen im Denkmodus von DeepSeek. Aber in dieser Anleitung wird gezeigt, wie man durch mehrere Runden von Dialog und das Aufrufen mehrerer Werkzeuge die Qualität der endgültigen Antwort verbessern kann.

Man kann es so verstehen: Früher konnte DeepSeek nur die Antworten aus den gespeicherten Informationen (Modellparametern) zusammenstellen, wenn man eine Frage stellte. Jetzt kann es die Frage zerlegen, einzelne Fragen stellen und verschiedene Werkzeuge (wie Suchmaschinen, Mathematik-Werkzeuge, Programmierwerkzeuge usw.) verwenden, um bessere Lösungen zu finden. Am Ende werden alle Antworten zusammengeführt und zu einer vollständigen Antwort formatiert.

Da die Zeit begrenzt war, hat Xiaolei keine schwierigeren Fragen entworfen, um DeepSeek zu testen. Interessierte Personen können jetzt auf die offizielle DeepSeek-Website gehen und es selbst ausprobieren.

Das stärkste Open-Source-Modell? OpenAI und Google werden wieder Kopfschmerzen bekommen

Ist DeepSeek V3.2 stark? Ja, es ist stark, aber es gibt keinen gewaltigen Abstand zu anderen Modellen. Laut den Testergebnissen ist es mit GPT-5 High und Gemini 3.0 Pro auf Augenhöhe. Aber wenn ein Modell, das in mehreren autoritativen Benchmarks mit GPT-5 und Gemini 3.0 Pro konkurrieren kann und dessen Inferenzkosten nur ein Drittel oder sogar weniger der Kosten von Mainstream-Modellen sind, als vollkommen Open-Source-Modell veröffentlicht wird, wird dies den gesamten Markt erschüttern - dies ist auch die grundlegende Logik, warum DeepSeek immer wieder die Branche verändert.

Bisher gab es in der Branche immer die Meinung: "Open-Source-Modelle bleiben immer acht Monate hinter Closed-Source-Modellen zurück." Man kann nicht sagen, ob diese Aussage richtig ist, aber die Veröffentlichung von DeepSeek V3.2 hat diese Debatte sicher beendet. DeepSeek setzt weiterhin auf vollständige Open-Source-Veröffentlichung. Insbesondere nach der Einführung des DSA, einer Technologie, die die Kosten erheblich senken und die Fähigkeit zur Verarbeitung von langen Texten verbessern kann, hat das