StartseiteArtikel

Chinesische GPUs stellen sich der NVIDIA H200.

最话FunTalk2025-12-18 19:24
Geben Sie den chinesischen Chips mehr Zeit.

Am 17. Dezember 2025 stieg Muxi Co., Ltd. an der STAR Market (Wachstumsmarkt für Technologieunternehmen in China) an die Börse. Der Schlusskurs am ersten Handelstag betrug 829,90 Yuan, was einem Anstieg von 725,24 % gegenüber dem Emissionspreis von 104,66 Yuan entspricht. Muxi konzentriert sich auf die Forschung und Entwicklung von Hochleistungs-GPU-Chips, und seine Produkte decken die Gebiete künstliche Intelligenzrechnen, allgemeines Rechnen und Grafikrendering ab.

Weniger als zwei Wochen zuvor, am 5. Dezember, trat Moore Threads offiziell an die STAR Market auf und wurde damit „der erste chinesische GPU-Akteur an der Börse“. Es war die IPO mit dem höchsten Kapitalbeschaffungsbetrag an der STAR Market im Jahr 2025. Es dauerte nur 88 Tage von der Antragsannahme bis zur Genehmigung. Der Emissionspreis betrug 114,28 Yuan pro Aktie, und der Anstieg am ersten Börsentag erreichte 425,46 %.

Die intensive Börsengänge chinesischer GPU-Hersteller und die starke Zuspitzung des Marktes ist in gewisser Weise eine Antwort auf die Äußerung „der Wolf kommt wieder“. Laut Medienberichten kündigte US-Präsident Donald Trump am 8. Dezember 2025 in sozialen Medien an, dass die Vereinigten Staaten NVIDIA erlauben würden, die künstliche Intelligenz-Chips H200 an „genehmigte Kunden“ in China auszuführen. Allerdings müsse NVIDIA 25 % seines Umsatzes an die US-Regierung abführen.

Ein Bericht des US-Denkwerks Progressive Policy Institute zeigt, dass die Leistung des H200 fast sechs Mal so hoch ist wie die des H20, aber es besteht immer noch eine Generationsebene zwischen ihm und dem neuesten Blackwell-Chip – genau in dem „süßen Punkt“, der „brauchbar, aber nicht fortschrittlich“ ist. Daher ist die Aufhebung der Ausfuhrbeschränkung für den H200 in den USA eigentlich die Fortsetzung ihrer Strategie „den Frosch im lauwarmen Wasser kochen“ – der „Dumping“ von H200-Chips mit relativ hinterlegener, aber immer noch konkurrenzfähiger Leistung, um den Fortschritt der chinesischen heimischen Substitution zu verzögern.

Was noch interessanter ist, hat Jensen Huang offen gesagt, dass die Erhöhung des Chipverkaufs an China nicht nur die chinesischen Unternehmen von seiner Technologie abhängig machen würde, sondern auch mehr Forschungs- und Entwicklungsgelder für das Unternehmen bringen würde. Dieser Gedanke des „Kriegsfinanzierens aus dem Kriegserfolg“ stimmt mit der „Technologieabhängigkeitstheorie“ der US-Hawks überein.

Aber ob dieser Plan des „Kochens des Frosches im lauwarmen Wasser“ gelingen wird, hängt davon ab, ob China auf diesen Zug nimmt. Aus der Beschleunigung der Börsengänge chinesischer GPU-Hersteller geht hervor, dass China offensichtlich nicht in die Falle tappt.

01 Die Zeit ohne H200

Von 2022 bis 2025 wurden die US-Ausfuhrbeschränkungen für Halbleiter an China immer strenger. Im April 2025 verschärfte die USA die Beschränkungen weiter, was dazu führte, dass NVIDIA gezwungen war, den speziell für den chinesischen Markt angepassten H20-Chip von der Verkaufsliste zu nehmen. Das Unternehmen erlitt dadurch etwa 4,5 Milliarden US-Dollar an Lagerverlusten und etwa 8 Milliarden US-Dollar an potenziellen Einnahmeverlusten. Jensen Huang, CEO von NVIDIA, erklärte im Oktober 2025 öffentlich, dass infolge der Ausfuhrbeschränkungen der Marktanteil von NVIDIA in China von 95 % auf 0 % fiel und das Unternehmen „100 % den chinesischen Markt verlassen“ habe.

Diese drei Jahre wurden von der Branche als die „düsterste Stunde“ der chinesischen AI-Chip-Industrie bezeichnet, aber genau in diesen drei Jahren kam es zum beschleunigten Aufstieg chinesischer Chips. Angesichts der externen Blockade wählten chinesische GPU-Hersteller eine Durchbruchsstrategie mit „dreifacher Herangehensweise“:

Da die Leistung einzelner Karten chinesischer Hersteller vorerst nicht mit der von NVIDIA mithalten kann, versuchen diese Hersteller, die Leistungslücke durch die Erhöhung der Fläche, der Anzahl von Transistoren und der Anzahl von Chips zu schließen. Das Huawei Ascend 910C verwendet ein Dual-Die-Design, und seine FP16-Rechenleistung erreicht 800 TFLOPS, was nahe an 80 % der Leistung des NVIDIA H100 kommt. Die Gesamtleistung des Cambricon Synapse 590 erreicht 70 - 80 % der Leistung des NVIDIA A100. Die FP16-Rechenleistung des Hygon DeepComputing II erreicht 1024 TFLOPS, was fast 90 % der Leistung des A100 entspricht.

Da die Energieeffizienz chinesischer Karten relativ schlecht ist, lösen diese Karten in der Regel das Problem des Stromverbrauchs durch eine Kombination von „Stromversorgung und Ingenieurskunst“. Die „Pinghu“-Architektur von Moore Threads unterstützt die dynamische Stromverbrauchsverwaltung mit einer maximalen TDP von 1000 W pro Chip und gewährleistet durch Ingenieurstechniken wie Flüssigkeitskühlung einen stabilen Betrieb. Obwohl die Leistung pro Watt immer noch etwa 30 % hinter NVIDIA zurückbleibt, werden bereits Low-Power-Versionen von chinesischen Karten hergestellt.

Einfach ausgedrückt, versuchen chinesische Karten in dieser Phase, die schlechte Energieeffizienz durch intensivere Flüssigkeitskühlung und die Anordnung von mehr Serverständern sowie stärkere Ingenieurskunst zu kompensieren.

Schließlich gibt es die Strategie der „Ökosystemkompatibilität + Hack auf Kompilierungsebene“. Angesichts der monopolistischen Stellung des NVIDIA CUDA-Ökosystems wählen chinesische Hersteller eine Kompatibilitätsstrategie. Der Hygon DCU erreicht durch das ROCm-Ökosystem eine „weiche Kompatibilität“ mit CUDA, und die gemessene Migrationsrate kann bis zu 85 % betragen. Die Huawei CANN-Architektur verwendet die Technologie der „Befehlsübersetzung + dynamische Planung“ und deckt 80 % der CUDA-API ab.

Technisch gesehen entspricht die hier genannte „Kompatibilität mit CUDA“ der Schaffung einer Übersetzungsschicht, die es chinesischen GPUs ermöglicht, NVIDIA-Befehlssprachen auszuführen. Beispielsweise heißt die NVIDIA-Funktion CUDA_X, und die chinesische Funktion heißt BR_X (z. B. bei Biren). → Es wird eine „Zuordnungstabelle“ erstellt, und wenn der Code CUDA_X aufruft, wird es automatisch in BR_X umgewandelt. Ähnlich wie beim Nachschlagen in einem Wörterbuch wird die „NVIDIA-Sprache“ in die „chinesische Sprache“ übersetzt. Durch eine Reihe von Maßnahmen wie die Kombination von Operatoren, die Aufteilung von Operatoren und die Anpassung der Ausführungsreihenfolge werden die Formeln in CUDA so umgestaltet, dass sie besser zur lokalen Syntax passen.

Aber das Problem ist offensichtlich: Immer einen Schritt hinterher – weil der Gegner ständig die Sprache aktualisiert, müssen Sie ständig neue Wörter nachholen. Jedes Mal, wenn NVIDIA CUDA oder die Architektur aktualisiert, müssen chinesische Hersteller sofort neue Übersetzungsschichten entwickeln. Dies ist strategisch sehr passiv.

Während der drei Jahre, in denen der H200 von China ferngehalten wurde, zeigte sich bei der Technologieentwicklung chinesischer GPUs ein sehr deutlicher „chinesischer Stil“ – unter den beschränkten Prozessbedingungen wurde die hinterlegene Hardware durch „kluge Architekturdesign, Clusterstapelung, Operatorfusion und Softwarekompatibilität“ so verbessert, dass sie brauchbar, skalierbar und für die Training von großen Modellen geeignet ist.

Diese Route ist keine optimale Lösung im Ingenieurwesen, aber unter den Blockadebedingungen ist sie die realistisch machbare beste Lösung.

02 Wo liegen die Unterschiede?

Um die technologischen Unterschiede zwischen chinesischen GPUs und dem NVIDIA H200 zu bewerten, ist es erforderlich, eine einheitliche Standardmetrik für einen quantitativen Vergleich heranzuziehen. Gemäß dem von der US-Bureau of Industry and Security (BIS) definierten Indikator der „Gesamtverarbeitungsleistung“ (Total Processing Performance, TPP) können die Haupt-AI-Chips miteinander verglichen werden, was als Referenz herangezogen werden kann.

Der hier genannte TPP-Indikator ist wie folgt definiert: TPP = 2 × MacTOPS × Bitlänge der Operation, normalerweise berechnet in TFLOPS (FP16) × 16. Laut einem Bericht von Bernstein Research vom Dezember 2025 sieht der Vergleich der TPP-Leistung der verschiedenen Chips wie folgt aus:

- NVIDIA H200: 60.000 TPP (basierend auf der Hopper-Architektur, 141 GB HBM3e, 4,8 TB/s Bandbreite)

- NVIDIA H20: 15.832 TPP (Spezialversion für den chinesischen Markt, Leistung beträgt nur 26 % des H200)

- Huawei Ascend 910C: 36.912 TPP (Leistung entspricht etwa 61,5 % des H200, die höchste Leistung unter chinesischen Chips)

- Cambricon Synapse 590: 29.360 TPP (Leistung entspricht etwa 49 % des H200)

- Hygon BW1000/DCU3: 14.688 TPP (Leistung entspricht etwa 24,5 % des H200)

- Moore Threads S4000: Etwa 20.000 TPP (Leistung entspricht etwa 33 % des H200)

Aus den öffentlichen Daten geht hervor, dass die Leistung einzelner Karten von chinesischen Spitzenchips immer noch um das 1,6 - 2 - fache hinter dem H200 zurückbleibt, aber sie haben den H20 übertroffen und erreichen ein „brauchbares“ Niveau.

Allerdings liegt die Trainingsleistung einzelner chinesischer Karten immer noch um das 2 - 3 - fache hinterher. Glücklicherweise kann ein Teil dieser Lücke auf Cluster-Ebene durch „Kartenstapelung + Hochgeschwindigkeitsverbindung“ kompensiert werden.

Die Leistung des Huawei CloudMatrix 384-Cluster (384 Ascend 910C-Karten) kommt der des NVIDIA GB200 NVL72 nahe und zeigt in einigen Trainingsaufgaben für große Modelle gute Ergebnisse. Es ist jedoch zu beachten, dass aufgrund der Prozessbegrenzungen (chinesische Chips verwenden in der Regel 7 nm, während der H200 4 nm verwendet) die Leistung pro Watt immer noch etwa 30 % hinterherbleibt.

Bei der Inferenzleistung haben die besten chinesischen Karten den gekürzten H20 erreicht oder sogar übertroffen. Die INT8-Rechenleistung des Huawei Ascend 910B2 erreicht 762 TOPS und ist bei der Verarbeitung von Niedrigpräzisionsdaten in der Inferenzphase effizient. Das Cambricon Synapse 590 zeigt auch gute Ergebnisse in Inferenzszenarien, da es genug KV-Cache-Speicher hat und die Bandbreite ausreicht. Die Speicherbandbreite des Muxi Xiyun C550 erreicht 1600 - 1800 GB/s, was die 4,8 TB/s des H200 übertrifft und in großen Inferenztasks einen Vorteil bietet.

In Bezug auf Kosten und Stromverbrauch beträgt der Kaufpreis der Hygon BW100 derzeit etwa 100.000 Yuan pro Karte, der Preis des Cambricon 590 ist von ursprünglich 85.000 Yuan auf 60.000 - 70.000 Yuan gesunken, und der des Huawei 910C beträgt etwa 180.000 Yuan, alle deutlich niedriger als die 300.000 - 400.000 Yuan des H200. Noch wichtiger ist, dass der H200 zusätzlich 25 % „US-Steuer“ zahlen muss, was den chinesischen Karten einen Kostenvorteil von etwa 50 % verschafft. Bezüglich des Stromverbrauchs ist die tatsächliche Differenz nicht so groß, obwohl die Leistung pro Watt von chinesischen Karten immer noch etwa 30 % hinterherbleibt, wenn man die 700 - W-TDP des H200 berücksichtigt.

Der Ökosystemfortschritt ist die größte Schwachstelle chinesischer Chips, aber auch der Bereich mit dem schnellsten Fortschritt.

Derzeit unterstützt die CANN-Toolchain von Huawei eine tiefe Zusammenarbeit mit MindSpore und eine einfache Migration von PyTorch. Andere chinesische Plattformen arbeiten ebenfalls an der Anpassung von Deep-Compilern und Intermediate Representations (IR), um es Entwicklern zu ermöglichen, große Modelle mit weniger manuellen Codeänderungen auszuführen.

Der Hauptgrund dafür liegt darin, dass verschiedene chinesische Chiphersteller, Cloud-Anbieter, Softwareteams, Forschungsinstitute und Universitäten zusammenarbeiten, um die Standardisierung des Ökosystems, die gemeinsame Nutzung von Tools und die gemeinsame Nutzung von Anpassungsbeispielen voranzutreiben.

Diese industrielle Zusammenarbeit ist ein seltener Vorteil bei der Ökosystementwicklung.

Insgesamt besteht immer noch ein Unterschied zwischen chinesischen Chips und dem H200 bei der Trainingsleistung, aber bei der Inferenzleistung ist der Unterschied auf ein Niveau gesunken, das „brauchbar + kostengünstiger + kontrollierbar“ ist.

Derzeit befinden sich chinesische Chips im Übergang von „knapp bestanden“ zu „gut nutzbar“. Laut Schätzungen von Bernstein wird es voraussichtlich zwischen 2026 und 2027 in einigen Szenarien möglich sein, mit dem H200 in vollem Umfang zu konkurrieren.

03 Die zukünftigen Konfrontationen

Betrachtet man die technologische Entwicklung in der Branche, folgt die gerade veröffentlichte Blackwell Ultra-Serie von NVIDIA weiterhin der Route der „Leistungssteigerung durch Ressourcenhäufung“ und setzt darauf, dass das Moore-Gesetz (oder das „Huang-Gesetz“) noch nicht ausgelaugt ist. Das sogenannte „Huang-Gesetz“ ist keine physikalische Gesetzmäßigkeit, sondern eine Erfahrungsregel, die von NVIDIA-CEO Jensen Huang aufgestellt wurde, wonach sich die GPU-Leistung alle zwei Jahre verdoppelt.

Dieses „Gesetz“ ist eher ein Ausdruck der Forschungs- und Entwicklungsinvestitionen und der Marktstrategie von NVIDIA als eine natürliche Gesetzmäßigkeit – NVIDIA investiert jährlich über 7 Milliarden US-Dollar in die Forschung und Entwicklung, was die Konkurrenten weit hinter sich lässt.

Chinesische Chips gehen nicht direkt auf den frontalem Weg an NVIDIA heran, sondern wählen eine Umgehungstrategie mit „kluger Architekturdesign + Mehr-Chip-Packaging + Clusterstapelung“. Das Huawei Ascend verwendet ein Dual-Die-Design und verbessert die Integrationsdichte durch fortschrittliche Packaging-Technologien. Die „Pinghu“-Architektur von Moore Threads ermöglicht eine skalierbare Chiplet-Architektur und unterstützt die flexible Konfiguration von Compute-Die, HBM3e-Speicher-Die und I/O-Die. Die Muxi Xiyun C700-Serie erweitert die Unterstützung für Niedrigpräzisions