Jensen Huang nennt es "Katastrophe": DeepSeek erfolgreich auf Huawei-Chips ausgeführt

Wie hat DeepSeek das überhaupt geschafft? Was bedeutet es, wenn diese Effizienzroute ihr Ende erreicht?

Die API - Preise von DeepSeek V4 sind herausgekommen: Für die Flash - Version beträgt der Eingabepreis 1 Euro pro Million Tokens, und die Pro - Version kostet 12 Euro.

Im gleichen Zeitraum sind die Aufrufkosten von GPT - 5.4 und Claude Opus 4.6 ungefähr 50 Mal höher als die von DeepSeek V4.

Es ist nicht nur um die Hälfte billiger, sondern um das 50 - fache. Diese Differenz ist so groß, dass es nicht wie Preise aus einem Wettbewerb aussieht.

Aber der Preis an sich ist nicht das Wichtigste. Wenn man sich die letzten drei Generationen der Produkte ansieht: Die Trainingskosten von V2 betrugen nur 1/70 der von GPT - 4 Turbo, V3 1/14 der von GPT - 4 und R1 1/20 der von GPT - 4o. DeepSeek hat eine steile Kurve der Kostenreduzierung gezeichnet. Selbst Altman sagte, dass die Kosten für KI alle 12 Monate um das 10 - fache sinken, was noch stärker ist als das Moore'sche Gesetz.

V4 bringt auch eine größere Variable mit sich: In seinem technischen Bericht wird ausdrücklich die parallele Validierung auf Huawei Ascend NPU und NVIDIA GPU erwähnt. Es ist das erste fortschrittliche Large Language Model, das nativ auf der Ascend - Plattform kompatibel ist. Huang Renxun sagte in einem Podcast, dass dies "katastrophal" sei. Die Stärke von NVIDIA liegt nicht in der GPU - Rechenleistung selbst, sondern in der Software - Ökosystemposition von CUDA als Standardausgangspunkt.

Um das 50 - fache billiger und es läuft auch auf Ascend. Wie hat DeepSeek das geschafft? Und was bedeutet es, wenn diese Effizienzroute ihr Ziel erreicht?

50 - fache Preisdifferenz

Die API - Preise von DeepSeek V4 sind wie folgt: Für die Flash - Version beträgt der Eingabepreis 1 Euro pro Million Tokens und der Ausgabepreis 2 Euro; für die Pro - Version sind es 12 Euro für die Eingabe und 24 Euro für die Ausgabe. Bei Cache - Treffern sinkt der Eingabepreis der Flash - Version auf 0,2 Euro pro Million Tokens.

Im gleichen Zeitraum sind die API - Aufrufkosten von GPT - 5.4 und Claude Opus 4.6 ungefähr 50 Mal höher als die von V4.

V4 ist vollständig Open - Source unter der MIT - Lizenz und wurde genau einen Tag vor der Veröffentlichung der neuen Agent - Funktion von OpenAI herausgebracht. Die Absicht des harten Wettbewerbs ist offensichtlich.

Aber die Preisgestaltung von V4 ist keine isolierte Preisreduktion. Wenn man sich die letzten drei Generationen der Produkte ansieht, hat DeepSeek eine steile Kurve der Kostenreduzierung gezeichnet.

Anfang 2024 waren die Trainingskosten von V2 im Vergleich zu GPT - 4 Turbo auf 1/70 gesunken, dank der kombinatorischen Innovation der MLA - Architektur und der MoE - Sparse - Architektur. Ende desselben Jahres betrugen die Trainingskosten von V3 5,6 Millionen US - Dollar, was im Vergleich zu den 78 Millionen US - Dollar von GPT - 4 auf 1/14 gesunken ist. Anschließend betrugen die Trainingskosten von R1 6 Millionen US - Dollar, was im Vergleich zu den etwa 120 Millionen US - Dollar von GPT - 4o auf 1/20 gesunken ist.

Bei den drei Generationen von Produkten hat sich die Kostenreduktion von Generation zu Generation um eine Größenordnung verringert. Dies ist keine einmalige Aktion, sondern eine Tendenz.

Vor einem Jahr, als R1 veröffentlicht wurde, hat NVIDIA an diesem Tag einen Marktwertverlust von fast 600 Milliarden US - Dollar erlitten. Der "DeepSeek - Moment" ist zu einem Erinnerungsanker für die gesamte Technologiebranche geworden. V4 hat diese Geschichte noch einen Schritt weiter gebracht.

Naturgemäß gibt es auch Kontroversen über diese Kurve. Dem Leiter von Google DeepMind, Hassabis, zufolge sind die Kostenangaben von DeepSeek "zu niedrig und etwas irreführend". Er behauptet, dass das Unternehmen "nur die Kosten der letzten Trainingsstufe veröffentlicht hat, was nur ein kleiner Teil der Gesamtkosten ist". Die Analysefirma SemiAnalysis schätzt weiter, dass die Hardwareausgaben von DeepSeek weit über 500 Millionen US - Dollar liegen und die 6 Millionen US - Dollar in der Studie nur die GPU - Kosten für das Pre - Training sind.

Selbst wenn die Hardwareinvestitionen von DeepSeek über 500 Millionen US - Dollar liegen, handelt es sich um Kapitalausgaben, einschließlich des Kaufs von Chips. Die Trainingskosten von GPT - 4o betragen etwa 120 Millionen US - Dollar und beziehen sich auf die Rechenleistungskosten für einen einzelnen Trainingslauf. Die Vergleichsbasis der beiden ist unterschiedlich. Aber selbst wenn man die Rechenleistungsinfrastrukturinvestitionen von OpenAI in Höhe von Milliarden von US - Dollar berücksichtigt, hat DeepSeek immer noch einen großen Kostenvorteil bei den einzelnen Trainingskosten. Die Kontroversen beweisen genau die These: Selbst wenn die Kosten unterschätzt wurden, ist es immer noch erstaunlich billig.

Dies ist nicht nur die Geschichte von DeepSeek. Von GPT - 4 zu GPT - 4o hat OpenAI selbst den Preis pro Token um etwa das 150 - fache gesenkt. Trotz dieser Reduzierung ist der API - Preis von DeepSeek immer noch um 95 % billiger als der von OpenAI.

Altman schrieb in einem Artikel im Februar 2025 klar: Die Kosten für die Nutzung einer bestimmten KI - Stufe sinken alle 12 Monate um etwa das 10 - fache. Das Moore'sche Gesetz hat die Welt mit einer Verdoppelung alle 18 Monate verändert, und die Kostenreduktion in der KI - Branche ist "noch stärker".

Wenn dein Wettbewerber selbst deine These bekräftigt, ist es nicht mehr nur eine These. Die KI - Branche erlebt ihr eigenes Moore'sches Gesetz, und DeepSeek ist der radikalste Ausführende dieses Gesetzes.

Was ist der Mechanismus hinter diesem Gesetz? Warum konnten die Kosten der drei Generationen von Produkten stetig sinken? Die Antwort liegt in der Technologie - Route von DeepSeek.

Von der Algorithme bis zum Chip

Für das Training von V3 wurden nur 2048 H800 - Karten verwendet. Die Trainingscluster für Modelle gleicher Stufe verwenden normalerweise Tausende von Karten. Aber DeepSeek hat mit diesen 2048 Karten ein Modell trainiert, das mit GPT - 4 konkurrieren kann, dank einer Technologie, die zuvor niemand in einem großen - Maßstab - Training wirklich eingesetzt hat: FP8 - Mixed - Precision.

NVIDIAs Transformer Engine unterstützt bereits FP8 - Training, aber vor V3 hat kein Open - Source - Large Language Model FP8 - Training wirklich durchgeführt. DeepSeek war der erste, der es wagte. Durch die feingranulare Quantisierungsstrategie wurden die Aktivierungswerte in 1x128 - Tiles und die Gewichte in 128x128 - Blöcken quantisiert, wodurch die Rechenkosten ohne Verlust der Modellqualität erheblich gesenkt wurden.

Wichtiger als die Anzahl der Waffen ist die Fähigkeit, sie richtig zu nutzen. Mit 2048 Karten kann DeepSeek die Arbeit von Tausenden anderer Karten erledigen.

V4 hat auf diesem Weg einen großen Schritt weiter gemacht und direkt die Attention - Mechanismen selbst verändert.

Der Kern sind zwei neue Attention - Strukturen. CSA (Compressed Sparse Attention) komprimiert die KV - Caches von jeweils 4 Tokens zu einem Eintrag und wählt dann mit einem Filter namens Lightning Indexer nur die 512 relevantesten Blöcke aus allen komprimierten Blöcken zur Berechnung aus.

HCA (Hierarchical Compressed Attention) ist noch radikaler. Der Kompressionsfaktor beträgt 128, und es wird direkt eine vollständige Berechnung durchgeführt, um die globale Struktur zu erfassen, ohne die Auswahlphase. Die beiden Attention - Mechanismen werden abwechselnd eingesetzt und in Kombination mit einem Schiebefenster, das die originalen KV - Werte der letzten 128 Tokens behält, um die Inference - Kosten für Texte mit einer Länge von einer Million Tokens zu senken.

DeepSeek hat direkt erklärt: "Ab sofort wird ein Kontext von einer Million Tokens für alle offiziellen Dienste von DeepSeek standardmäßig zur Verfügung stehen." Früher war die Fähigkeit, Texte mit einer Million Tokens zu verarbeiten, ein Indikator, um die Fähigkeiten zu demonstrieren. Jetzt ist es der Standardparameter.

Wenn die technischen Kosten so niedrig sind, dass sie zur Standardoption werden können, ist es keine Wettbewerbsvorteil mehr, sondern ein Teil der Infrastruktur.

Das Ergebnis zeigt sich direkt in den Benchmark - Werten.

Das V4 - Pro - Modell mit 1,6 Billionen Parametern und 49 Milliarden Aktivierungen benötigt bei einem Kontext von einer Million Tokens nur 27 % der Rechenleistung von V3.2 und nur 10 % des KV - Caches. Der Ressourcenverbrauch wird auf ein Viertel reduziert.

Und was ist mit der Spitzenversion Pro Max? Im Wissens - Benchmark SimpleQA erreicht es 57,9 Punkte, 20 Punkte besser als das beste Open - Source - Modell. Im Mathematikwettbewerb Putnam 2025 erreicht es 120 von 120 Punkten. Im Programmierwettbewerb Codeforces rangiert es auf Platz 23 unter den menschlichen Teilnehmern. Drei völlig verschiedene Aufgaben werden gleichzeitig auf der Spitze platziert.

Mit einem Viertel der Rechenleistung erreicht es die Spitze. Dies ist nicht nur Kostensenkung und Effizienzsteigerung, sondern eine Art "Neuauflage der physikalischen Gesetze".

Aber die interessanteste Variable von V4 liegt nicht auf der Algorithme - Ebene.

In Abschnitt 3.1 des technischen Berichts von V4 steht: "Wir haben dieses feingranulare Expert - Parallel - Schema auf beiden Plattformen, NVIDIA GPU und Huawei Ascend NPU, validiert." Die beiden Plattformen werden parallel in der Validierungsergebnis erwähnt. Dies ist kein Ausdruck für "kompatibel", sondern für "nativ unterstützt".

Der Kern dieses Schemas besteht darin, die Kommunikation und Berechnung von MoE in feinere Granularitäten zu unterteilen und sie in "Wellen" zu planen. Dadurch wird die allgemeine Inference - Beschleunigung um das 1,50 - bis 1,73 - fache und die Beschleunigung für das Long - Tail - Training in kleinen Batches in der Reinforcement Learning um bis zu 1,96 - fache verbessert. Ascend ist von einer alternativen Option zu einer parallelen Option geworden.

Der Transfer war nicht einfach. Laut einem Ingenieur in der Nähe von DeepSeek war die Zeitaufwendigste Phase bei der Anpassung von V4 von CUDA auf CANN nicht die Neuimplementierung der Operatoren, sondern die Anpassung der Genauigkeit. Um die gleichen mathematischen Ergebnisse auf NVIDIA und Ascend zu erzielen, mussten wiederholte Anpassungen vorgenommen werden.

Beim Training mit der 910C - Version hatte DeepSeek Probleme: Die Gradientensynchronisierung in einem 1024 - Karten - Cluster war zeitlich überschritten, und die alte Version von CANN fehlten wichtige Operatoren. Die 950PR hat diese Schwächen gezielt behoben: Die Bandbreite zwischen den Chips wurde verdreifacht, und CANN Next enthält die Operatoren FlashAttention und PagedAttention.

Ein echter technischer Transfer bedeutet nicht nur, ein anderes Markenzeichen von Chips zu verwenden, sondern, dass zwei völlig verschiedene Hardware - Systeme die gleichen mathematischen Ergebnisse erzielen. DeepSeek hat diesen Weg erfolgreich gegangen, und die Schwelle für die Nachfolger ist dadurch erheblich gesenkt worden.

Die Strategie von Huawei ist auch klar. Die Rechenleistung der Ascend 950PR erreicht 2 PFLOPS bei FP4 - Genauigkeit, und die Interkonnektionsbandbreite zwischen den Chips beträgt 2 TB/s. Die Positionierung von CANN Next ist nicht, alles von vorne zu beginnen, sondern, nahtlos zu ersetzen: Das neue SIMT - Programmierungsmodel ist stark an CUDA angelehnt, so dass die Entwickler ihre CUDA - Programmierungshabits beibehalten können und schließlich optimierte Programme für Ascend kompilieren können.

Huang Renxun hat in einem Podcast - Interview mit Patel gezeigt, was NVIDIA wirklich befürchtet. Es ist nicht, dass China ein gutes Modell entwickelt, sondern, dass gute Modelle nicht mehr CUDA als Standardoptimierungsausgangspunkt verwenden.

Die Stärke von NVIDIA liegt nie in der Rechenleistung der GPU selbst, sondern in der Software - Ökosystemposition von CUDA, das als "de - facto Standard" seit fast zwanzig Jahren existiert. Fast alle Mainstream - KI - Frameworks, Operator - Bibliotheken und Open - Source - Modelle optimieren zuerst für CUDA. Die native Anpassung von DeepSeek auf Ascend hat gerade den Ausgangspunkt dieser Kette durchbrochen: Es gibt zumindest einen realen, lauffähigen und von einem Top - Modell validierten Nicht - CUDA - Pfad.

Wenn das beste Open - Source - Modell der Welt einen vollständigen Nicht - CUDA - Pfad beweist, hat die zwanzigjährige Ökosystembarriere ihren ersten Riss bekommen. Die Effizienzroute hat sich von der Algorithme bis zum Chip ausgebreitet, bis zu dem Punkt, den NVIDIA am meisten befürchtet.

Rechenleistung wie Wasser und Strom

In einem Forschungsbericht nach der Veröffentlichung von V4 hat CITIC Construction Investment eine Einteilung vorgenommen: R1 hat die Frage beantwortet, "Kann China ein Weltklasse - Modell entwickeln?" V4 beantwortet zwei konkretere Fragen: "Kann es sich unter der Rechenleistungssperre kontinuierlich entwickeln?" und "Kann ein Large Language Model zu einem profitablen Unternehmensprodukt werden?"

Die akademische Welt hat bereits die erste Frage beantwortet. Im September 2025 ist der Artikel über R1 auf der Titelseite von Nature erschienen, und acht Experten haben ihn Punkt für Punkt begutachtet. Dies ist das erste Mainstream - Large Language Model, das die Peer - Review eines Top - Fachjournals weltweit bestanden hat. Die Frage, "Kann China es machen?", ist damit beantwortet.

Die zweite Frage ist die, die V4 wirklich beantworten muss.

Die Großkonzerne kämpfen um den Markt auf die traditionellste Art. Während des chinesischen Neujahrs 2026 haben ByteDance, Alibaba und Tencent fast 10 Milliarden Yuan für die Akquise neuer Benutzer ausgegeben. Qianwen hat 3 Milliarden Yuan für "Milchtee - Geschenkkörbe" ausgegeben, Doubao war im chinesischen Neujahrsempfang der CCTV zu sehen, und Yuanbao hat 1 Milliarde Yuan in Barzahlungen verteilt.

Nach Daten von QuestMobile hatten bis Februar 2026 Doubao 103 Millionen aktive Benutzer, Qianwen 32,45 Millionen und DeepSeek 24,77 Millionen, was den dritten Platz einnimmt.

Aber die Situation von DeepSeek ist anders als die der Großkonzerne. Die tägliche Aktivität ist von

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Jensen Huang sagte, dass dies eine "Katastrophe" sei: DeepSeek wurde auf Huawei-Chips erfolgreich ausgeführt.

50 - fache Preisdifferenz

Von der Algorithme bis zum Chip

Rechenleistung wie Wasser und Strom