Wenn es darum geht, Geld zu sparen, ist nur Liang Wenfeng mein Vorbild.
Das am meisten beanstandete Problem bei DeepSeek ist, dass der Server ständig abstürzt. Aber ab jetzt wird es bei DeepSeek möglicherweise nie wieder zu Serververzögerungen oder Ausfällen kommen.
Der Grund dafür ist, dass Liang Wenfeng ein Papier mit dem Titel "DSpark: Spekulative Decodierung und semi-autoregressive Generierung basierend auf Vertrauenswertscheduling" veröffentlicht hat. Gemäß der Tradition von DeepSeek sollte DSpark als D·Spark und nicht als DS·park ausgesprochen werden.
Dies ist das 12. Papier, das Liang Wenfeng nach der Veröffentlichung von "DeepSeek LLM" im Jahr 2024 unter seinem Namen veröffentlicht hat. Nicht nur das, sondern das Papier über DSpark stößt auch mit seiner Masterarbeit aus dem Jahr 2010 zusammen.
DSpark ist wie ein Beschleuniger für DeepSeek. Für die Benutzer fühlt es sich einfach so an: schnell, stabil und ohne Abstürze.
Bei Antworten gleicher Qualität ist die Geschwindigkeit um 60 % bis 80 % schneller. Was früher 10 Sekunden dauerte, kommt jetzt in fünf oder sechs Sekunden.
Das Wichtigste ist, dass DeepSeek auch in den Spitzenzeiten nicht mehr ständig "im Kreis dreht".
Wie wunderbar ist dieser DSpark überhaupt? Hab Geduld, ich erzähle es dir.
Was ist DSpark überhaupt,
und welche alten Probleme von DeepSeek löst es?
Das Generieren von Texten durch große Modelle ist im Wesentlichen ein "Wortraten-Spiel". Jedes Mal, wenn das Modell ein Wort schreibt, muss es alle zuvor geschriebenen Wörter erneut lesen und berechnen, um zu entscheiden, welches Wort als nächstes geschrieben werden soll.
Für jedes geschriebene Wort muss die KI den gesamten Prozess von vorne beginnen. Wenn es 100 Wörter schreibt, muss es seine eigenen Schreibungen 99 Mal neu verarbeiten. In der Wissenschaft wird dieser Prozess des "Zurückkehrens zu sich selbst" als "autoregressive Generierung" bezeichnet.
Der gesamte Prozess ist wie eine Auseinandersetzung der gegenwärtigen Version mit der vorherigen. Wenn die vorherige Stufe nicht abgeschlossen ist, kann die nächste Stufe nicht fortfahren.
Deshalb haben sich die Branche in den letzten Jahren mit der gleichen Frage beschäftigt: Kann das Modell mehrere Wörter auf einmal erraten?
Dieser Gedanke ist der Kernmechanismus, der im DSpark-Papier erwähnt wird - die Spekulative Decodierung (Speculative Decoding).
Die Arbeitsweise ist wie folgt: Man wählt ein schnell arbeitendes, aber mittelmäßiges Modell als Entwurfsmodel. Es soll auf Anhieb mehrere Wörter erraten und diese dann auf einmal an das große Modell zur Überprüfung geben.
Das große Modell überprüft die Wörter. Alle direkt hintereinander richtig geratenen Wörter werden beibehalten. Ab dem ersten falsch geratenen Wort schreibt das große Modell selbst das richtige Wort, und das Entwurfsmodel setzt dann das Erraten fort.
So kann sichergestellt werden, dass der ausgegebene Text vom großen Modell akzeptiert wird und dass die Geschwindigkeit höher ist als beim einen Wort nach dem anderen erraten.
Die Branche geht allgemein von zwei Arten der Spekulativen Decodierung aus.
Die erste Methode ist die "ehrliche" Methode. Das Entwurfsmodel erratet auch Wort für Wort. Es überprüft nach jedem geratenen Wort den vorherigen Text und erratet dann das nächste Wort. Der Vorteil ist, dass die Qualität der Ausgabe höher ist. Der Nachteil ist, dass es sehr langsam ist, und die Geschwindigkeit ist fast so langsam wie die des großen Modells selbst.
Die zweite Methode besteht darin, alle folgenden Wörter auf einmal zu erraten, ohne sich um den gesamten vorherigen Satz zu kümmern. Es beachtet nur das vorherige Wort. Obwohl diese Methode schnell ist, sinkt die Qualität der Ausgabe je weiter es in die Zukunft schaut.
Das Papier nennt dieses Phänomen "Suffix-Deskriptionsverfall": Die Genauigkeit des ersten Wortes ist noch akzeptabel, die des zweiten Wortes sinkt stark, und ab dem fünften oder sechsten Wort ist es fast wie ein zufälliges Raten.
Der Kerngedanke von DSpark heißt semi-autoregressive Generierung. Einfach ausgedrückt, kombiniert es die beiden oben genannten Methoden.
Im ersten Schritt werden alle folgenden Wörter mit hoher Geschwindigkeit erraten. Danach wird der Text überprüft, ob es Ungereimtheiten oder Rechtschreibfehler gibt.
Im zweiten Schritt gibt DSpark jedem Wort eine "Zuverlässigkeitsnote". Beispielsweise bekommt das erste Wort 90 Punkte, das zweite 80 Punkte, das dritte 60 Punkte und das vierte 30 Punkte. Hier gibt es aber ein Problem: Wenn DSpark weiß, welches Wort falsch ist und es korrigieren will, würde es wieder zur ursprünglichen autoregressiven Methode zurückkehren, und die soeben erreichte Effizienzgewinn würde wieder verloren gehen.
Deshalb schlägt DSpark eine Methode vor: Es misst im Voraus die Verarbeitungsgeschwindigkeit des großen Modells bei verschiedenen Batch-Größen und sortiert dann die Entwürfe jeder Anfrage nach ihrer Zuverlässigkeitsnote in absteigender Reihenfolge.
Zuerst gibt es die Batch mit den höchsten Noten an das große Modell zur Überprüfung.
Dieser Prozess ist schnell, da die Menge gering ist. Dann fragt es sich: Sollte es auch die zweite Batch hinzufügen? Wenn es dies tut, wird das große Modell etwas länger brauchen. 80 % dieser Wörter sind richtig, und es können einige hundert richtige Ergebnisse gewonnen werden. Die zusätzliche Zeit wird durch die zusätzlichen richtigen Wörter dividiert, und es wird ein Effizienzwert berechnet. Wenn der Gewinn höher ist als der Zeitaufwand, wird die Batch hinzugefügt. Die dritte Batch hat eine Genauigkeit von 60 %. Und so weiter.
Je nach Auslastung des Servers werden im nicht beschäftigten Zustand alle Batches überprüft, um so viele richtige Ergebnisse wie möglich zu erzielen.
Wenn das große Modell sehr beschäftigt ist, werden nur die ersten Batches mit den höchsten Noten an das Modell zur Überprüfung gegeben. Die anderen Batches, die wahrscheinlich falsch sind, werden nicht weiter bearbeitet, um Zeit für die Bearbeitung anderer Benutzer zu sparen.
Den gesamten Prozess nennt man Vertrauenswertscheduling-Überprüfung.
Bisher gab es viele Beschleunigungslösungen, aber alle haben ein gemeinsames Problem: Sie funktionieren bei einzelnen Benutzern sehr schnell, aber bei hoher Konkurrenz stürzen sie ab.
Aktuell stürzt DeepSeek in den Abendspitzenzeiten ab oder reagiert langsam.
Im Wesentlichen liegt das daran, dass es in den Spitzenzeiten viele Benutzeranfragen gibt und der Batch-Verarbeitungsdruck auf der GPU extrem hoch ist. Die bisherige Spekulative Decodierungslösung MTP-1 verschwendet jedoch viel Rechenleistung auf die Überprüfung von Tokens, die wahrscheinlich falsch geraten wurden.
Diese Tokens werden vom Entwurfsmodel einfach geraten, und das große Modell lehnt sie nach einem Blick ab. Aber der Abweisungsprozess hat bereits wertvolle GPU-Zyklen verbraucht.
Die effektive Durchsatzleistung wird stark herabgesetzt, die Anfragen häufen sich, die Warteschlangen werden länger, und die Benutzererfahrung ist langsam oder es kann gar nichts geladen werden.
Nach der Implementierung von DSpark sollte sich dieses Problem verbessern.
Die Messdaten zeigen, dass unter strengen Anforderungen an die geringe Latenz, wie z. B. dass V4-Flash jedem Benutzer 120 Wörter pro Sekunde anzeigen muss, das bisherige MTP-1-System bei einer geringen Anzahl von gleichzeitigen Anfragen schon abstürzt, während DSpark noch eine mehr als sechsfache Durchsatzleistung aufrechterhalten kann.
Unter normalen Bedingungen bei mittlerer Last, wenn jeder Benutzer 80 Wörter pro Sekunde erwartet, steigt die Gesamt-Durchsatzleistung von DSpark auf einer einzelnen GPU von 10.000 Tokens pro Sekunde auf 15.100 Tokens pro Sekunde, was einer Steigerung von 51 % entspricht.
Wie viel können die Kosten gesenkt werden,
und wird die Qualität der Antworten darunter leiden?
In der KI-Branche sind die Trainingskosten einmalig, während die Inferenzkosten dauerhaft sind.
Wie lässt sich dieses Problem verstehen? Wenn Sie ein großes Modell trainieren, egal ob Sie hundert Millionen oder Milliarden von Yuan ausgeben, ist das Geld einmal ausgegeben.
Die Inferenz ist anders. Nachdem das Modell online geht, muss die GPU für jede Benutzerfrage laufen. Diese Kosten fallen 24 Stunden am Tag, sieben Tage die Woche an. Je mehr Benutzer es gibt, desto öfter muss die GPU laufen, und es gibt kein Ende.
Das bedeutet, dass derjenige, der die Inferenzkosten senken kann, Geld verdienen kann. Man kann auch umgekehrt sagen: Wenn ein Modell sehr stark ist, aber die Inferenzkosten nicht kontrolliert werden können, sterben die Anbieter umso schneller, je größer das Modell wird.
Mit der gleichen Anzahl von GPUs kann DSpark die Generierungsgeschwindigkeit für jeden Benutzer um 60 % bis 85 % erhöhen, ohne die Hardware zu ändern.
Was früher 10 Sekunden dauerte, kommt jetzt in fünf oder sechs Sekunden.
DeepSeek hat auch ein sehr extrems Szenario beschrieben. Wenn es ein heißes Thema gibt und viele Benutzer gleichzeitig auf die Plattform kommen, stürzt das bisherige System entweder ab oder die Benutzer müssen so lange warten, dass sie aufgeben. Die Kapazität zu erweitern dauert Zeit, und man kann nicht einfach so plötzlich mehr GPUs hinzufügen.
DSpark nutzt ein dynamisches Scheduling. Wenn die Last hoch ist, verkürzt es automatisch die Überprüfungslänge, um die kritische Batch-Verarbeitungs-Kapazität nicht zu belegen. So kann es die Spitzenlast ohne Kapazitätserweiterung bewältigen.
Jetzt stellt sich die Frage: Ist es zwar schneller, aber wird DeepSeek dadurch die Qualität der Antworten herabsetzen?
Die Antwort ist: Kein Verlust.
Dies ist durch die mathematischen Eigenschaften der Spekulativen Decodierungstechnologie bedingt. Der Reboot-Sampling-Mechanismus garantiert mathematisch streng, dass die Wahrscheinlichkeitsverteilung jedes Tokens, das das große Modell am Ende ausgibt, genau übereinstimmt mit der Verteilung, die das Modell selbst bei der Wort-für-Wort-Schreibung hätte.
Das DSpark-Papier schreibt: "the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss." Die Akzeptanzregel bewahrt die Zielverteilung exakt, und die Spekulative Decodierung beschleunigt die Generierung ohne Qualitätsverlust.
Darüber hinaus hat das Papier auch Offline-Genauigkeitstests in den Bereichen mathematische Inferenz, Codegenerierung und alltägliche Konversation durchgeführt. Es gab keine statistisch signifikanten Unterschiede im Vergleich zum ursprünglichen Modell.
Nach der Online-Implementierung wurden keine Benutzerfeedback zur Qualitätsminderung der Antworten erhalten.
Da das Entwurfsmodel sehr klein ist und weniger als 10 % der gesamten Rechenleistung beansprucht, hat es zwar einen gewissen Einfluss auf die Serverlast, aber im Vergleich zur gemessenen Steigerung von 51 % kann diese Last vernachlässigt werden.
DeepSeek ist schon immer für seine niedrigen Preise bekannt. Nachdem die Inferenzkosten um 40 % gesenkt wurden, hat DeepSeek mehr Spielraum für Preisreduzierungen.
Die API-Preise waren bereits die niedrigsten in der Branche. Wenn die Kosten weiter sinken, könnte auch der Token-Preis fallen. Es ist sogar möglich, dass das Kontingent für kostenlose Benutzer erhöht wird.
Das Wichtigste ist, dass DeepSeek nicht nur die Modellgewichte veröffentlicht hat, sondern auch das gesamte DeepSpec-Trainingsframework Open Source gemacht hat.
DeepSpec ist ein einheitliches Trainingswerkzeug, das speziell für das Training von Entwurfsmodeln für die Spekulative Decodierung entwickelt wurde. Das bedeutet, dass Sie mit diesem Werkzeug Entwurfsmodelle für Ihre eigenen Modelle wie Qwen3 oder Gemma trainieren können.
Das senkt die Branchengrenze für die Inferenzkosten noch weiter.
16 Jahre lang auf Sparsamkeit beharren
Im Jahr 2010 studierte Liang Wenfeng an der Zhejiang-Universität. Sein Masterarbeitsthema war "Untersuchung eines Zielverfolgungsalgorithmus auf Basis eines kostengünstigen PTZ-Kameras".
Dieser Name klingt heute sehr "Liang Wenfeng".
Zu dieser Zeit war in den Laboren für computergestützte Bildverarbeitung und Zielverfolgung die Standardausstattung eine industrielle Kamera, die mehrere tausend Yuan kostete, mit hoher Genauigkeit und guter Steuerbarkeit. Liang Wenfeng kaufte keine solche Kamera. Er nutzte stattdessen eine normale private Kugelkamera, die nur ein paar hundert Yuan kostete.
Seine These war, dass der Unterschied in der Hardware durch Algorithmen ausgeglichen werden kann. Durch die Optimierung eines selbst entwickelten Verfolgungsalgorithmus erreichte er eine Verfolgungsgenauigkeit mit der billigen Kamera, die nahe an die der teuren Geräte herankam.
16 Jahre später ist Liang Wenfeng immer noch bestrebt, mit Algorithmen Kosten für die Hardware zu sparen. Man kann sagen, dass er sein ursprüngliches Ziel sehr treu bleibt.
Warum versuchen andere große Modellunternehmen alles, um die Leistung zu verbessern, während DeepSeek lieber sparen möchte? Weil es Liang Wenfengs eigenes Geld ist.
Nachdem DeepSeek eine Finanzierung abgeschlossen hat, berichteten ausländische Medien, dass DeepSeek in den fast drei Jahren seit seiner Gründung vollständig von den Gewinnen der von Liang Wenfeng gegründeten Magic Square Quant gefördert wurde und es in dieser Zeit mehrmals externe Investitionen abgelehnt hat.
Magic Square Quant hatte im Jahr 2025 eine durchschnittliche Rendite von 56,55 % und einen Jahresumsatz von etwa 8,6 Milliarden Yuan. Liang Wenfeng hält 85 % der Anteile und bekommt jedes Jahr Dividenden im dreistelligen Millionenbereich. Seine persönlichen Vermögen werden auf zwischen 50 und 100 Milliarden Yuan geschätzt. Bei der ersten Finanzierungsrunde von über 50 Milliarden Yuan im Jahr 2026 hat Liang Wenfeng persönlich 20 Milliarden Yuan beigetragen, was 40 % des Gesamtbetrags ausmacht