StartseiteArtikel

Die Bombe, die DeepSeek gestern stillschweigend geworfen hat, hat heute explodiert.

凤凰网科技2025-08-22 18:07
Das neue Fenster für chinesische eigene Chips

Zusammenfassung: Tatsächlich muss man nicht raten, wen dies begünstigt, denn DeepSeek will diesmal die Ökosystem der chinesischen Chips allgemein unterstützen.

DeepSeek hat am 21. August offiziell V3.1 veröffentlicht. Eine offizielle Ergänzungsnachricht hat eine Furore ausgelöst.

Ja, denn die offizielle Veröffentlichung von V3.1 hat die Beschreibung der Prozessrechenleistungsobergrenze zu vage formuliert und sich dann selbst in den Kommentaren ergänzt.

Nach einer Nacht hat diese kurze Äußerung den gesamten A-Aktienmarkt in Rausch versetzt. Laut Berichten von Finanznachrichtenagenturen sind über 2.800 Aktien an diesem Tag gestiegen. Betrachtet man die Branchen, so haben die Aktien der Rechenleistungsszene stark zugenommen. Viele Aktien wie Yuntianlifen haben die Obergrenze erreicht. Die Chip-Aktien sind ebenfalls stark gestiegen. Cambricon hat einen neuen Höchststand erreicht, SMIC hat um 14 % zugenommen und Hygon Information hat die Obergrenze erreicht.

Die Reaktion des Kapitalmarktes ist nicht nur eine Hingabe an ein Leitsatz, sondern eine Anerkennung der Möglichkeit, dass die chinesischen Chips tatsächlich in die internationale Spitze der Rechenleistungsszene vordringen können. Diese Äußerung von DeepSeek wird nicht nur als ein Signal für einen "technologischen Wechsel" angesehen, sondern auch als ein seltenes Moment der Resonanz in der chinesischen Rechenleistungskette.

Was genau ist diese Bombe von DeepSeek?

Um zu verstehen, warum "UE8M0 FP8" so viel Aufmerksamkeit erregt, muss man es in zwei Teile zerlegen: "FP8" als Kern und "UE8M0" als Seele. FP8 ist eine Gleitkommaform, die Zahlen auf nur 8 Bit komprimiert, um die extreme Belastung der Grafikspeicherbandbreite bei der Training und Inferenz von großen KI-Modellen zu verringern.

DeepSeeks Modelle verwenden seit jeher dieses Format. Allerdings unterstützen nur sehr wenige chinesische Chipunternehmen FP8 nativ. Beispielsweise unterstützt das Flaggschiffprodukt MTT S5000 von Moore Threads FP8 nativ und wird in großem Maßstab produziert. Die meisten chinesischen Chips unterstützen FP16. Dies führt dazu, dass die Leistung der chinesischen Chips bei der Ausführung von DeepSeeks Modellen um mindestens die Hälfte sinkt. Dies erklärt auch, warum die Leute lieber NVIDIA-Chips kaufen, denn die chinesischen Chips waren bisher nicht "vollständig leistungsfähig", ganz zu schweigen von der möglichen Leistungseinbuße bei der lokalen Anpassung.

Abbildung | Generiert von Doubao AI

Eine KI-Infrastrukturunternehmen hat Phoenix Tech mitgeteilt, dass die Lösung darin besteht, in der Softwareinnovationen zu erzielen. Es gibt chinesische Unternehmen, die speziell Software für chinesische Chips entwickeln, um sie an DeepSeek anzupassen. Beispielsweise hat Qingcheng Jizhi das Ziel, die Leistung der chinesischen Chips bei der Verwendung von DeepSeek zu verbessern.

Hier ist ein zusätzliches Wissen: Reines FP8 (wie die gängigen E4M3- oder E5M2-Formate) weist eine inhärente Kompromiss zwischen Dynamikbereich und Genauigkeit auf. Bei der Verarbeitung von komplexen Daten mit extrem großen oder kleinen Werten kann es immer noch zu Genauigkeitsverlusten oder numerischen Überläufen kommen. Einfach ausgedrückt, es kommt zu Datenverlusten, ähnlich wie beim Komprimieren von Kleidern: Man kann sie sehr stark zusammenpressen, aber sie werden sehr zerknittert.

Der echte Durchbruch kommt von dem MX (Microscaling)-Format, das von dem Open Compute Project (OCP), das von Technologiegiganten wie Meta und Google vorangetrieben wird, festgelegt wurde. Der Kerngedanke besteht darin, nicht mehr einen großen Skalierungsfaktor für das gesamte Tensor zu verwenden, sondern es in kleine Datenblöcke zu unterteilen und jedem Block einen eigenen leichten 8-Bit-Skalierungsfaktor zu geben. Dadurch wird der Dynamikbereich um das Zehnfache erweitert, während die 8-Bit-Speichereffizienz beibehalten wird. Einfach ausgedrückt, man packt die Kleider in separate Pakete.

Kommt man zurück zu "UE8M0", das von DeepSeek veröffentlicht wurde. Dies ist genau das Datenformat des Schlüsselskalierungsfaktors, der für jeden Datenblock im MX-Format festgelegt ist. Es ist eine äußerst effiziente 8-Bit-Exponentendarstellung: "U" steht für "unsigned", was bedeutet, dass es immer eine positive Zahl ist und kein Vorzeichenbit benötigt wird. "E8" bedeutet, dass alle 8 Bit für den Exponenten verwendet werden. "M0" bedeutet, dass es keine Mantisse gibt. Mit einer Metapher ausgedrückt, ist UE8M0 wie ein Super-Energie-sparender Lampenschalter, der nur die Stufen einstellt und keine Feinabstimmung vornimmt, wie eine Vorspulen-Taste in einem KI-Chip.

Dieses "vollständige Exponenten"-Design bringt zwei grundlegende Vorteile: Erstens ist die Hardware beim Skalieren (d. h. der Datenwiederherstellung) äußerst einfach und schnell, da nur einfache Ganzzahl-Potenzrechnungen durchgeführt werden müssen (entspricht der direkten Verschiebung des Binärpunkts), wodurch komplexe Gleitkomma-Multiplikationen und Rundungsoperationen vermieden werden. Dies verkürzt den kritischen Rechenpfad erheblich und verbessert die Energieeffizienz. Zweitens ist der enorme Dynamikbereich (von 2⁻¹²⁷ bis 2¹²⁸) ausreichend, um sicherzustellen, dass jeder Datenblock genau in den Darstellungsbereich von FP8 skaliert werden kann, wodurch fast vollständig die Informationsverluste aufgrund von Überläufen oder Rundungen auf Null vermieden werden. Die Fehlerratekurve fällt von einem hohen Niveau auf eine flache, niedrige Linie.

Deshalb lässt sich sagen, dass UE8M0 FP8 die chinesischen Chips schneller, sparsamer und robuster bei der Ausführung von großen Modellen, insbesondere von DeepSeeks Modellen, macht.

Viele bestehende chinesische KI-Beschleuniger unterstützen nicht nativ die vollständigen E4M3/E5M2 FP8-Rechenmodule, aber ihre Architektur entwickelt sich in Richtung des MX-Formats, das Blockskalierung unterstützt. UE8M0 als Skalierungsfaktor hat ein sehr einfaches Format und kann ohne komplexe spezielle Gleitkomma-Multiplikatoren implementiert werden, wodurch die Hardwareimplementierungsschwelle gesenkt wird.

Was noch wichtiger ist, es bietet die optimale Lösung für das Überwinden der "Speicherwand": Im Vergleich zu dem traditionellen Ansatz, jedem Datenblock einen 32-Bit-FP32-Skalierungsfaktor zu geben, benötigt UE8M0 nur 8 zusätzliche Bit, um 32 FP8-Daten effizient zu verwalten. Dadurch sinkt der Bandbreitenaufwand um 75 %. Dies ist für die chinesischen Chips, deren HBM-Bandbreite noch im Aufholjagd ist, eine architektonische Optimierung, die durch die Innovation des Datenformats "Bandbreitenentlastung" erzielt. Es wird zu einem Schlüsseltechnologiepfad für die Effizienzsteigerung in der nächsten Generation des Wettbewerbs. Daher ist dies nicht nur eine einfache technische Kompatibilität, sondern auch eine präzise Positionierung, die durch eine fortschrittliche Design eine unterschiedliche Wettbewerbsfähigkeit im Mainstream-Standardrahmen erfüllt.

Die chinesische Rechenleistungsszene erlebt einen "Eureka-Moment"

Aus industrieller Sicht ist DeepSeeks Äußerung nicht nur eine technologische Wahl, sondern auch eine Bestätigung der industriellen Ökosystem. Man denke darüber nach, dass die besten chinesischen großen Modellprodukte so eng mit NVIDIA verbunden sind, ist eigentlich eine besorgniserregende Sache. DeepSeeks Veröffentlichung kann als ein schrittweiser Entkopplung angesehen werden, wobei die offizielle Seite aktiv für die Entwicklung der chinesischen Chip-Ökosystem eintritt.

Die Implementierung von UE8M0 FP8 bedeutet auch, dass die chinesischen Rechenleistungshersteller in den Bereichen des Gleitkommaformats, der Compileroptimierung und der Anpassung des Trainingsframeworks einen vollständigen Stack erreicht haben. Dies zeigt, dass die langjährige Zusammenarbeit zwischen Hardware und Software endlich Früchte trägt.

Was die nächste Generation der chinesischen Chips betrifft, so hat Phoenix Tech erfahren, dass die meisten etablierten chinesischen Chipunternehmen Kontakt mit DeepSeek aufgenommen haben. Viele von ihnen unterstützen bereits FP8. Neben Moore Threads hat Cambricon, dessen Aktien an diesem Tag am stärksten gestiegen sind, auch Produkte wie das Synergy 590 und die neueste Serie 690, die FP8 unterstützen. Phoenix Tech hat auch erfahren, dass die MUSA-Architektur von Moore Threads nativ die Hardware-FP8-Tensorbeschleunigung unterstützt und jetzt auch UE8M0 FP8 Scale gut unterstützt. Durch die Nutzung der Hardware-FP8 kann im Vergleich zur traditionellen FP16-Berechnung eine doppelte Gleitkommarechenleistung, eine verbesserte Effizienz der Speicherzugriffs- und Kommunikationsbandbreite sowie eine höhere Speicherkapazitätsnutzung erreicht werden, während gleichzeitig die Genauigkeit der Tensorrepräsentation optimiert wird.

Deshalb muss man nicht raten, wen dies begünstigt, denn DeepSeek will diesmal die Ökosystem der chinesischen Chips allgemein unterstützen.

Die Äußerung von DeepSeek ist nicht nur eine Neudefinition der Rechenleistungseffizienz für die zukünftigen großen Modelle, sondern auch der Ausgangspunkt für die chinesischen Chipunternehmen, um internationale Autorität zu erlangen. Die Euphorie auf dem Kapitalmarkt hat nicht nur emotionale Gründe, sondern spiegelt auch ein Signal wider: Die chinesischen Chips stehen vor einer beispiellosen Chance, sich tatsächlich an die Spitze der technologischen Welle zu stellen.

Dieser Artikel stammt aus dem WeChat-Account "Phoenix Tech". Der Autor ist Phoenix Tech. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.