Mit Liang Wenfeng als benanntem Autor: DeepSeeks großer Schritt nach der ersten Finanzierungsrunde: Generierungsgeschwindigkeit steigt um 85 %
Zhidongxi berichtete am 27. Juni, dass DeepSeek nach Abschluss einer Finanzierung von 50 Milliarden Yuan heute erstmals neue Open-Source-Ergebnisse vorgestellt hat!
Gerade hat DeepSeek ein Engineering-Schema freigegeben, das die Geschwindigkeit bestehender Modelle erhöht: Es hat die Modelle DeepSeek-V4-Pro-DSpark und DeepSeek-V4-Flash-DSpark vorgestellt und den Open-Source-Speculative Decoding-Frameworks DSpark sowie den Speculative Decoding-Trainings-Frameworks DeepSpec freigegeben.
▲Screenshot der Open-Source-Neuigkeiten-Seite von DeepSeek-V4-Pro-DSpark
Laut der synchron hochgeladenen Studie von Liang Wenfeng in Zusammenarbeit mit Peking-Universität "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation" reduziert DSpark effektiv die Verschwendung von Rechenkapazität durch ineffiziente Prüfungen, wenn es im DeepSeek-V4-Online-System eingesetzt wird und echten Nutzerverkehr bearbeitet.
Im Vergleich zu einem etablierten Produktions-Baseline-Schema (MTP-1) erhöht DSpark die Generierungsgeschwindigkeit pro Nutzer um 60 % - 85 %, ohne die Gesamtdurchsatzleistung zu beeinträchtigen. Am wichtigsten ist, dass DSpark unter strengen Interaktionslatenzbedingungen einen starken Rückgang der Durchsatzleistung vermeidet und so ein bisher nicht erreichbares Leistungsniveau erzielt, was die Pareto-Optimalgrenze des gesamten Dienstleistungssystems erhöht.
▲Screenshot der DSpark-Studie
Hugging Face-Adresse:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark
GitHub-Adresse:
https://github.com/deepseek-ai/DeepSpec
Studienadresse:
https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
Laut der Modellkarte auf Hugging Face sind DeepSeek-V4-Pro-DSpark und DeepSeek-V4-Flash-DSpark keine neuen Modelle, sondern auf der Grundlage der ursprünglichen Versionen um ein Speculative Decoding-Modul erweitert, um die Inferenzgeschwindigkeit zu erhöhen und die Kosten zu senken.
Speculative Decoding ist einfach gesagt eine schadlose Technologie für die Inferenz von großen Modellen. Der Kernprozess besteht darin, zunächst einen Entwurf zu erstellen und dann zu überprüfen. Dabei wird die Entwurfsgenerierung von der Prüfung des Zielmodells entkoppelt, um die Inferenz von großen Sprachmodellen zu beschleunigen.
Aktuelle Mainstream-Parallel-Entwurfs-Generatoren können in einem einzigen Vorwärtslauf sehr lange Token-Sequenzen generieren. Da jedoch zwischen den Token keine Abhängigkeiten bestehen, sinkt die Akzeptanzrate der nachfolgenden Entwurfsinhalte rapide. Wenn außerdem die gesamte lange Kandidatensequenz unverändert überprüft wird, wird die wertvolle Batch-Rechenkapazität für Token verschwendet, die leicht abgelehnt werden, was in Hochkonkurrenzszenarien zu einem starken Rückgang der Gesamtdurchsatzleistung führt.
Deshalb hat DeepSeek den DSpark Speculative Decoding-Frameworks entwickelt, der die Hochdurchsatz-Parallelgenerierung mit einem adaptiven, lastabhängigen Prüfmechanismus kombiniert. Um die Qualität des Entwurfs zu gewährleisten, verwendet DSpark eine semi-autoregressive Architektur: Die parallele Hauptnetzwerkstruktur wird mit einem leichten seriellen Modul kombiniert, um die Abhängigkeiten zwischen Token innerhalb des Moduls zu schaffen und das Absinken der Akzeptanzrate am Ende der Inhalte zu verringern.
▲DSpark-Architektur und Decodierprozess
Um die Effizienz des Systembetriebs zu optimieren, hat DSpark einen Confidence-Scheduled Prüfmechanismus eingeführt: Basierend auf der geschätzten Durchlasswahrscheinlichkeit des Präfixes und den Durchsatzmerkmalen des Engines wird für jede Anfrage die Prüflänge dynamisch angepasst. In Offline-Benchmark-Tests in verschiedenen Bereichen kann DSpark im Vergleich zu den derzeit besten autoregressiven und parallelen Entwurfs-Generatoren die Länge der effektiv akzeptierten Sequenzen deutlich erhöhen.
Wie in der folgenden Abbildung gezeigt, bietet DeepSeek für die beiden Modelle DeepSeek-V4-Pro-DSpark und DeepSeek-V4-Flash-DSpark ein minimales Inferenzbeispiel.
▲Minimales Inferenzbeispiel von DeepSeek
Insgesamt kann der Nutzer nach der Implementierung des DSpark-Versions von DeepSeek-V4 in Bezug auf die Generierungsgeschwindigkeit, die Latenz des ersten Tokens und die Konkurrenzfähigkeit eine verbesserte Erfahrung erwarten.
Schauen wir uns nun DeepSpec an. Dies ist eine Full-Stack-Code-Bibliothek oder ein Toolchain zur Training und Bewertung von Speculative Decoding-Entwurfsmodellen (Draft Model). Sie enthält Tools zur Datenvorbereitung, Implementierungen von Entwurfsmodellen, Trainingscode und Bewertungsskripte und unterstützt die MIT-Lizenz.
▲Screenshot der Open-Source-Neuigkeiten-Seite von DeepSpec
Der Arbeitsablauf von DeepSpec ist wie folgt. Er führt die einzelnen Phasen nacheinander aus, und die Ausgabe jeder Phase dient als Feedback für die nächste Phase:
1. Datenvorbereitung: Herunterladen von Hinweisen, Neugenerierung der Zielantworten und Erstellung eines Ziel-Caches.
2. Training: Training eines Modells für die zwischengespeicherten Zielausgaben.
3. Bewertung: Messung der Akzeptanz von Speculative Decoding in Benchmark-Aufgaben.
Derzeit unterstützt DeepSpec Algorithmen, die drei Entwurfsmodelle: DSpark, DFlash und Eagle3 umfassen.
Das DeepSpec-Team bedankt sich am Ende auch bei SpecForge (Apache-2.0), DFlash (MIT) sowie Qwen3 und Gemma.
▲Danksagungen von DeepSeek
Man kann sehen, dass DeepSeek nicht nur die relevanten Modelle veröffentlicht, sondern auch einen vollständigen Trainings-Frameworks freigibt, damit Entwickler und Unternehmen mit diesen Tools Entwurfsmodelle für ihre eigenen Modelle wie Qwen3 und Gemma trainieren können.
Fazit: Die Wichtigkeit der Inferenz steigt
Es wird die Fähigkeit der Engineering-Prozesse getestet
Obwohl die Veröffentlichung von DeepSeek diesmal eher diskret war und es sich nicht um eine neue Modelliteration handelt, hat sie tatsächlich einen hohen Wert. DeepSeek hat ein Engineering-Schema veröffentlicht, das die Geschwindigkeit bestehender Modelle erhöht. Dies verspricht eine schnellere und kostengünstigere Inferenz-Erfahrung und senkt die Einstiegshürde für Speculative Decoding.
Der Wettlauf um große Modelle hat die Phase eines System-Spiels erreicht, in der sowohl das Training als auch die Inferenz von Bedeutung sind. Diesmal hat DeepSeek nach Abschluss der Finanzierung erstmals in der Optimierung der Inferenz investiert. Die strategische Absicht ist klar: Es soll nicht nur die Modelliteration und die Produktentwicklung beschleunigen, sondern auch die Spitze der Konkurrenz um Rechenkapazitätseffizienz erobern.
Dieser Artikel stammt aus dem WeChat-Account "Zhidongxi" (ID: zhidxcom), geschrieben von Li Shuiqing und mit Genehmigung von 36Kr veröffentlicht.