Kann Deepseek China 1 Billionen US-Dollar sparen?
Einführung
Im zweiten Halbjahr 2026 wird NVIDIA seine bisher leistungsfähigste KI-Plattform liefern: die Vera Rubin VR200 NVL72. In einem gesamten Schrank werden 72 Rubin-GPU-Karten und 36 Vera-CPU-Kerne untergebracht. Morgan Stanley schätzt, dass die Materialkosten dieser Maschine etwa 7,8 Millionen US-Dollar betragen.
Diese Zahl ist schon beeindruckend. Aber noch interessanter ist, wohin das Geld fließt.
Von diesen 7,8 Millionen US-Dollar werden etwa 2 Millionen US-Dollar weder für den weltbekannten GPU-Chip noch für die Rechenkerne ausgegeben, sondern für den Arbeitsspeicher - den Hochbandbreitenspeicher (HBM4) und den normalen Arbeitsspeicher (LPDDR5X). Innerhalb eines Jahres ist der Preis für diesen Speicheranteil um 435 % gestiegen.
Dies ist ein Signal. In der immer teureren KI-Maschine fließt das Geld in zunehmendem Maße von den "Rechenkomponenten" zu den "Speicher- und Datenspeicherkomponenten".
Merken Sie sich dieses Signal. Denn DeepSeek, über das in diesem Artikel gesprochen wird, macht genau das Gegenteil: Alle werden von der Zeit getrieben, die teureren Arbeitsspeicher für KI-Hardware zu bezahlen. DeepSeek hingegen sucht nach Möglichkeiten, die teuren Hardwarekomponenten ohne Beeinträchtigung der Wettbewerbsfähigkeit durch die Integration von Hardware und Software um das Vierfache oder mehr an Token-Produktivität zu steigern, was gleichbedeutend mit einer Einsparung von 75 % der Hardwareinvestitionen ist.
Und am Ende dieser Entwicklung wird derzeit eine Vermutung heiß diskutiert: Kann DeepSeek durch seine eigenen Bemühungen für die chinesische KI-Infrastrukturentwicklung eine Billion US-Dollar sparen?
Ist das wirklich möglich?
Eine Billion US-Dollar werden eingespart
Die Angebotsliste von NVIDIA ist das härteste Geld in der aktuellen KI-Infrastruktur-Rechnung. Unter der gegenwärtigen Angebots- und Nachfragesituation müssen Sie diese Rechnung akzeptieren, wenn Sie die neuesten KI-Maschinen kaufen möchten.
DeepSeek kann dies nicht ändern.
Es ändert jedoch etwas anderes: Wie viele Token kann dieselbe Maschine mit denselben 2 Millionen US-Dollar an teurer Speicherhardware tatsächlich produzieren?
Diese Frage wird besonders konkret, nachdem DeepSeek V4 veröffentlicht wurde.
Was bei V4 noch interessanter ist, ist nicht nur das Modell selbst, sondern die drei Schritte, die es zeigt: Erstens, die "Gedächtnisleistung" weiter zu reduzieren, damit der lange Kontext den Grafikspeicher nicht mehr überlastet; zweitens, die "Körperfunktion" bedarfsgerecht zu aktivieren, damit das riesige Expertensystem nicht jedes Mal alle seine Ressourcen einsetzen muss; drittens, die wiederholten Berechnungen in wiederverwendbare Ressourcen umzuwandeln, damit der bereits berechnete Kontext nicht immer wieder Geld kostet.
Diese Technologien zeichnen sich dadurch aus, dass sie auf der Zusammenarbeit von Hardware und Software basieren, nicht nur auf reiner Softwareoptimierung. Deshalb vergleicht man DeepSeek manchmal mit einem Witz: Es könnte die größte chinesische KI-Hardwarefirma werden.
Die Modellseite von DeepSeek zeigt, dass im Kontext von 1 Million Token der V4-Pro im Vergleich zur vorherigen Generation nur 27 % der Rechenleistung pro Token und 10 % des Cache-Speichers benötigt. In diesem Artikel nehmen wir den Wert von ungefähr einem Viertel der Rechenleistung als Grundlage für die folgenden Berechnungen.
Nach dem herkömmlichen Ansatz können diese Hardwarekomponenten nur eine bestimmte Durchsatzleistung erzielen. Durch die Komprimierung des langen Kontexts, die bedarfsgerechte Aktivierung, die Wiederverwendung des Caches und die Rechnungsplanung kann DeepSeek die effektive Token-Produktion der gleichen Hardware auf das Vierfache steigern - somit werden die Kosten nicht "abgeschnitten", sondern verteilt. Was früher von 4 Maschinen erledigt wurde, kann jetzt von einer einzigen Maschine erledigt werden; früher musste für jedes generierte Token die volle Kosten der teuren Hardware getragen werden, jetzt kann dieselbe Hardware auf 4 Token verteilt werden.
Das ist der wahre Stärkenpunkt von DeepSeek: Es ändert nicht den Preis von NVIDIA, sondern die Produktivität der NVIDIA-Maschinen in der KI-Rechnung. Die Bedeutung dieser Tatsache ist weit größer als eine Preissenkung der API.
Und die Größenordnung von einer Billion US-Dollar ist nicht aus der Luft gegriffen.
Der Bericht "Die Kosten der Berechnung" von McKinsey aus dem Jahr 2026 gibt eine konkrete Zahl an: Bis 2030 werden die globalen Rechenzentren zur Erfüllung der Rechenleistungserfordernisse etwa 6,7 Billionen US-Dollar an Investitionen benötigen, von denen etwa 5,2 Billionen US-Dollar speziell für die Verarbeitung von KI-Lasten aufgewendet werden müssen.
Mit anderen Worten, in den nächsten Jahren plant die ganze Menschheit, Billionen von US-Dollar in KI-Hardware zu investieren.
Ein Großteil dieses Betrags wird in die am weitesten fortgeschrittenen und am knappsten verfügbaren Hardwarekomponenten fließen - nämlich in den Hochbandbreitenspeicher (HBM) und den LPDDR-Arbeitsspeicher. Was DeepSeek derzeit tut, ist es, die Abhängigkeit der gesamten chinesischen KI-Industrie von diesen teuren Hardwarekomponenten systematisch zu verringern. Selbst wenn es nur einen Teil dieser Kosten senken kann, wird der Wert der Einsparungen für die Branche eine astronomische Summe in Milliardenhöhe betragen.
Wenn der tägliche Token-Verbrauch in China von heute über eine Billion auf Hunderte oder Tausende von Billionen steigt, wird jeder kleine Rückgang der Kosten pro Token zu einer riesigen Infrastrukturdifferenz führen. Wenn dieselbe Durchsatzleistung tatsächlich mit einem Viertel der Hardware erreicht werden kann, besteht die Möglichkeit, dass DeepSeek in absehbarer Zukunft für die chinesische KI-Infrastruktur nahezu eine Billion US-Dollar an Rechenleistungshardwareinvestitionen sparen kann.
Dies ist eine Infrastrukturrechnung: Wer dieselbe starre Hardwareausgabe für die Produktion von mehr Token nutzen kann, baut weniger Rechenzentren, kauft weniger GPU-Karten und legt weniger Grafikspeicher an, und verteilt damit die Zutrittskarten für die zukünftige KI neu.
Wie schafft es DeepSeek das zu tun? Die Antwort ist: Es hat dem großen Modell drei Schläge verpasst.
Zwei Kraftstofffresser
Eine verbreitete Fehleinschätzung ist, dass der teuerste Teil eines großen Modells die "Denkprozesse" und die Berechnungen sind. Das stimmt nicht.
Die beiden wirklichen Kraftstofffresser heißen "Gedächtnis" und "Körper". Und sie verbrauchen denselben teuersten Brennstoff - den Hochbandbreitenspeicher (HBM), einen extrem schnellen und teuren Arbeitsspeicher, der direkt in die GPU-Packung integriert ist.
Zuerst das Gedächtnis. Beim Generieren von Text hat das große Modell ein eher ungeschicktes Verhalten: Bei jedem neuen Wort muss es alle vorherigen Inhalte erneut überprüfen. Dies liegt daran, dass die Bedeutung der Sprache schrittweise aufgebaut wird, und was im Folgenden gesagt werden soll, hängt vollständig von der zuvor geschaffenen Kontext ab.
Das ist wie ein Dolmetscher. Er kann nicht nur anhand Ihres letzten Satzes beginnen, sondern muss sich alles, was Sie zuvor gesagt haben, merken - nur so kann er verstehen, worauf der aktuelle Satz wirklich abzielt. Je länger Sie sprechen, desto mehr muss er sich merken.
Um nicht bei jedem Wort von vorne zu beginnen (das würde zu langsam sein), speichert das Modell die bereits berechneten Zwischenergebnisse temporär. Dieser Speicher wird KV-Cache (Key-Value Cache) genannt und kann als kurzzeitiges Gedächtnis des Modells verstanden werden.
Das Problem ist, dass dieser Cache mit der Länge des Dialogs exponentiell wächst.
Nehmen wir eine konkrete Zahl: Bei einer bestimmten Standardstruktur kann die Verarbeitung eines Kontexts von etwa 120.000 Wörtern bereits 488 GB Hochbandbreitenspeicher verbrauchen. Die von NVIDIA bevorstehend gelieferte Rubin-GPU hat einen Speicher von 288 GB pro Karte. Das bedeutet, dass allein für das Speichern dieses Gedächtnisses fast eineinhalb oder sogar fast zwei der neuesten GPU-Karten vollständig belegt wären - und das Modell hat noch nicht einmal begonnen, seine eigentliche Arbeit zu tun.
Jetzt zum Körper. Der "Körper" des Modells bezieht sich auf seine Parametergewichte und kann grob als Träger aller seiner Kenntnisse und Fähigkeiten verstanden werden. Je stärker die Fähigkeiten, desto größer ist der Körper, der häufig hunderte von Milliarden oder gar Billionen von Parametern aufweisen kann.
Das herkömmliche dichte Modell (Dense Model, ein Modell, das alle Parameter für die Verarbeitung jeder Eingabe verwendet) hat ein Problem: Unabhängig von Ihrer Frage muss es seinen gesamten Körper einsetzen. Das ist wie wenn Sie in ein Krankenhaus gehen, um nur einen Zahn zu behandeln, aber alle Ärzte aller Abteilungen gerufen werden, um Sie von Kopf bis Fuß zu untersuchen, bevor endlich der Zahnarzt an der Reihe ist. Es ist absurd, aber die Kosten werden trotzdem in vollem Umfang berechnet.
Dieser große Körper muss ebenfalls ständig im teuren Hochbandbreitenspeicher bereitstehen.
Das Gedächtnis und der Körper, diese beiden Kraftstofffresser, drücken die Wertverteilung des gesamten Hardware-Systems fest auf die teuersten, knappsten und am stärksten abhängigen Hardwarekomponenten. In den letzten zehn Jahren war die Lösung der Branche einfach und grob: Wenn die Rechenleistung nicht ausreichte, wurde sie erhöht; wenn der Speicherplatz nicht ausreichte, wurde auch hier mehr hinzugefügt. Somit ist das Vermögen der Branche stark auf dieser Spitzen-Hardwarekette angesammelt, und die größten Gewinne liegen in der knappensten Stufe.
Der Preis der Token wird somit von der Knappheit einer Hardwarekomponente gefesselt. Und die drei Schläge von DeepSeek zielen genau darauf ab, diese Fesseln zu lösen.
Erster Schlag: Am Gehirn operieren
Der erste Schlag trifft auf das "Gedächtnis". Und der Angriffspunkt ist genau der Ort, an dem man am wenigsten ansetzen sollte oder es sich am wenigsten traut - der Aufmerksamkeitsmechanismus (Attention, der Kernmechanismus des großen Modells zur Verständnis des Kontexts).
Der Aufmerksamkeitsmechanismus ist das Gehirn des großen Modells. Es kann den Kontext verstehen und die Schwerpunkte in einem langen Dialog erkennen, alles dank dieses Mechanismus, der die Beziehungen zwischen jedem Wort immer wieder abwägt. Das teure Gedächtnis ist das Ergebnis jeder Pulsation dieses Gehirns.
Um Gedächtnis zu sparen und gleichzeitig das Risiko zu vermeiden, wählen fast alle Menschen den Umweg und setzen nur am Rand an. Von der Multi-Query-Attention (MQA), die 2019 von Noam Shazeer, einem der Urheber des Transformers, vorgeschlagen wurde, bis zur Group-Query-Attention (GQA), die 2023 von Google vorgeschlagen und von Llama und anderen weit verbreitet übernommen wurde, ist der Ansatz der Hauptströmung immer der gleiche: "Mehrere Abfragen teilen sich dasselbe Gedächtnis" - im Wesentlichen "weniger merken und damit auskommen". Der Effekt der Platzersparnis ist erstaunlich, aber der Preis ist die Verschlechterung der Modellqualität. Im Grunde ist der Konsens auf dieser Route immer "Kompromiss": Es wird angenommen, dass die Komprimierung unweigerlich die Qualität beeinträchtigt, und es wird nur darüber verhandelt, wie stark die Beeinträchtigung sein soll.
DeepSeek will keinen Kompromiss eingehen. Es wählt stattdessen, direkt am Gehirn anzugreifen und den Aufmerksamkeitsmechanismus selbst zu verbessern.
Seine Lösung heißt Multi-head Latent Attention (MLA), die erstmals 2024 in DeepSeek-V2 erschien. Stellen Sie sich vor: Andere Modelle notieren sich jeden Detailpunkt wörtlich und füllen mehrere Notizbücher. MLA hingegen extrahiert zuerst eine hochgradig komprimierte Zusammenfassung und speichert nur diese Zusammenfassung. Wenn erforderlich, kann es dann die Details präzise wiederherstellen. In Fachjargon heißt dies "Low-Rank-Compression" - die scheinbar umfangreichen, aber in Wirklichkeit stark überflüssigen Erinnerungen werden in einen viel kompakteren Raum projiziert und dort gespeichert.
Wie erstaunlich ist der Effekt? Die Ergebnisse der DeepSeek-V2-Publikation zeigen, dass V2 im Vergleich zu seiner Vorgängermodelle bei stärkeren Fähigkeiten die Trainingskosten um 42,5 % senkt, den KV-Cache um 93,3 % reduziert und die maximale Generierungsdurchsatzleistung auf das 5,76-fache steigert. Im obigen Beispiel, in dem 488 GB Speicherplatz verbraucht werden, könnte dieser Wert auf einige Gigabyte reduziert werden, wenn man diesen Ansatz verfolgt.
Aber das wirklich beeindruckende ist, dass es fast keine Verluste an Details hinnehmen musste.
Normalerweise kann man, wenn man ein Buch in eine Seite Zusammenfassung komprimiert, auch nach der Wiederherstellung nicht alle Details wiederfinden. Aber in den von DeepSeek veröffentlichten Experimenten ist die komprimierte Erinnerung nicht nur nicht schlechter als die "wörtliche Abschrift" des Standard-Aufmerksamkeitsmechanismus, sondern in einigen Fällen sogar etwas besser.
Bei V4 wurde dieser Ansatz noch weiter in Richtung extrem langer Kontexte verfolgt: Der V4-Pro verwendet eine gemischte Aufmerksamkeitsarchitektur und benötigt im Kontext von 1 Million Token im Vergleich zur vorherigen Generation nur 27 % der Rechenleistung und 10 % des Cache-Speichers.
Um zu verstehen, wie schwierig dies ist, muss man wissen, dass dies wie ein Operation an einem fliegenden Flugzeug ist. Die Änderung des Aufmerksamkeitsmechanismus bedeutet, dass man die unterste Schicht der Berechnungslogik des Modells neu schreiben, das gesamte Modell neu trainieren und das gesamte Service-System, das es unterstützt, neu aufbauen muss. Wenn eine Stufe fehlschlägt, bricht die Intelligenz zusammen. Dies ist keine einfache Reparatur wie das Austauschen eines Ventils, sondern eine Gehirnoperation.
Und DeepSeek hat es geschafft, dass die KI nach der Operation noch gesünder ist als vorher.
Zweiter und dritter Schlag: Der Maschine nummerierte Schränke geben
Der erste Schlag hat das Gedächtnis unter Kontrolle gebracht. Der zweite Schlag richtet sich gegen den großen "Körper".
Der Gedanke hinter diesem Schlag ist nicht von DeepSeek neu, sondern baut auf einer klaren Tradition auf: das Mixture of Experts (MoE), eine Struktur, bei der das Modell in viele "Experten" aufgeteilt wird und nur wenige von ihnen bei jeder Eingabe aktiviert werden.
Dieser Begriff existiert seit 1991 und wurde 2017 von Shazeer und anderen in das neuronale Netzwerk eingeführt. Anschließend haben Google's GShard und der Switch Transformer es in den Transformer integriert. Was es wirklich bekannt machte, war das Mixtral 8x7B von der französischen Firma Mistral Ende 2023, das mit nur einem Seed-Link veröffentlicht wurde - es hat insgesamt etwa 46,7 Milliarden Parameter, aber bei der Verarbeitung jedes Wortes werden nur etwa 12,9 Milliarden aktiviert.
Zurück zum Krankenhaus, in dem man "zum Zahnarzt geht und das ganze Krankenhaus aufrüttelt". Was MoE tut, ist es, dieses Krankenhaus in ein gut organisiertes Krankenhaus umzuwandeln: Wenn Sie zum Zahnarzt gehen, wird Ihnen der Empfang direkt zur Zahnarztpraxis leiten, und die Ärzte der anderen Abteilungen können weiter mit ihrer Arbeit fortfahren. Die Gesamtzahl der