Die vier kleinen Drachen der GPU sind auf dem Markt, und Unternehmen wie Cambricon sind nicht mehr allein
Die vier aufstrebenden GPU-Unternehmen stehen kurz davor, sich am Kapitalmarkt zu versammeln.
Am 15. Juni hat Shanghai Suiyuan Technology die Börsenzulassungsprüfung an der STAR-Börse des Shanghai Börsengebäudes bestanden. Laut der Börsengangsprospekt beabsichtigt Suiyuan Technology bei diesem IPO 6 Milliarden Yuan zu beschaffen. Davon werden 3,3 Milliarden Yuan in das kooperative Innovationsprojekt für AI-Software und -Hardware investiert, 1,2 Milliarden Yuan in die Entwicklung der sechsten Chip-Generation und 1,5 Milliarden Yuan in die Entwicklung der fünften Chip-Generation.
Das Kapitalpuzzle der chinesischen GPU wird allmählich vervollständigt. Die vier aufstrebenden Unternehmen Moore Threads, Muxi Co., Ltd., Biren Technology und Suiyuan Technology stehen kurz davor, sich vollständig am Kapitalmarkt zu versammeln.
Dies ist ein Moment der Beschleunigung.
Von Dezember 2025 bis Juni 2026 haben mindestens sechs AI-Chip-Unternehmen in nur sechs Monaten den Kapitalmarkt betreten oder stehen kurz davor, dies zu tun. Zusammen mit den zuvor an der Börse notierten Unternehmen Cambricon Technologies, Hygon Information Technology und Days Intelligent Computing nähert sich der Gesamtmarktwert der chinesischen GPU-Armee langsam 2 Billionen Yuan.
Der Wert hinter den Zahlen ist noch interessanter.
Während Moore Threads im ersten Quartal einen Buchgewinn von 29,35 Millionen Yuan erzielt hat, hat Muxi Co., Ltd. seine Verluste um 57,7 % reduziert und einen Zeitplan festgelegt, um bis 2026 den Break-Even-Punkt zu erreichen. Die verschiedenen Zahlen weisen in die gleiche Richtung:
Die chinesischen GPUs verkürzen mit einer beispiellosen Geschwindigkeit die Distanz zwischen technologischem Durchbruch und kommerziellem positiven Kreislauf.
Der DeepSeek-Moment der chinesischen GPUs
Am 24. April 2026 hat DeepSeek das Flaggschiffmodell DeepSeek-V4 mit einer Billion Parametern veröffentlicht.
Im Gegensatz zu einem Jahr zuvor, als die Branche noch darüber streitete, ob chinesische Chips große Modelle ausführen können, haben dieses Mal mehrere chinesische AI-Chips, darunter Huawei Ascend, Cambricon, Hygon, Muxi, Moore Threads, Kunlunxin, Alibaba's T-Head Zhenwu und Days Intelligent Computing, am Tag der Modellveröffentlichung die Anpassung abgeschlossen.
DeepSeek-V4 bringt den chinesischen Chips nicht nur eine technologische Anpassung, sondern verändert auch die Markt-Erwartungen an die chinesische Rechenleistung.
Bisher war der Standardrahmen zur Beurteilung eines AI-Chips, wie viel Prozent seiner Leistung der Leistung eines gleichaltrigen Produkts von NVIDIA entspricht. Dies setzt die chinesischen Chips in die Position des Verfolgenden.
Aber die Praxis von DeepSeek-V4 bietet einen neuen Blickwinkel. Zhang Dixuan, Präsident der Huawei Ascend Computing Business Unit, hat angegeben, dass die Rechenleistung einer einzelnen Karte der Huawei AI-Training und -Inferenz-Beschleunigungskarte Atlas 350 bereits das 2,87-fache der NVIDIA H20 beträgt.
Wenn ein Modell mit einer Billion Parametern stabil auf chinesischen Chips läuft, ist der Vergleich mit der stärksten Karte von NVIDIA nicht mehr das einzige Auswahlkriterium.
Diese Veränderung der Wahrnehmung wird in echtes Geld umgesetzt. Die Marktforschungsinstitution Bernstein Research prognostiziert, dass der Marktanteil von NVIDIA am chinesischen AI-Chip-Markt bis 2026 von 95 % vor drei Jahren auf 8 % zusammenbrechen wird. Huawei wird 50 % einnehmen, AMD etwa 12 %, und Cambricon wird auf Platz drei stehen.
Im Wettlauf um die Dominanz hat der Gesamtmarktanteil der chinesischen AI-Beschleunigungskarten 60 % überschritten. Dies ist eine historische Umgestaltung der Marktlage. Die Barrieren, die vor drei Jahren als unüberwindbar galten, werden von den chinesischen Chips schnell abgebaut.
Das Aufkommen der vier aufstrebenden GPU-Unternehmen darf nicht vernachlässigt werden.
Am Abend des 30. März 2026 hat das Kua'e Intelligent Computing Cluster von Moore Threads einen großen Auftrag im Wert von 660 Millionen Yuan erhalten. Die Ankündigung zeigt, dass der Vertragswert dieses einen Auftrags bereits 55 % des gesamten Jahresumsatzes von Moore Threads im Jahr 2024 entspricht.
Dies bedeutet, dass Moore Threads die technologischen Barrieren für die Entwicklung von Clustern mit Tausenden von Karten überwunden hat und von der Herstellung von Chips zur Lieferung von Supercomputing-Clustern übergegangen ist.
Suiyuan Technology, das sich derzeit um die Börsenzulassung an der STAR-Börse bemüht, profitiert von der engen Bindung an führende Unternehmen.
Bei der Veröffentlichung der Jahresergebnisse von Tencent im Jahr 2025 hat Liu Zhiping, Präsident von Tencent, bekannt gegeben, dass Tencent im Jahr 2025 etwa 1,8 Milliarden Yuan in neue AI-Produkte investiert hat und beabsichtigt, diese Investitionen im Jahr 2026 mindestens zu verdoppeln, auf über 3,6 Milliarden Yuan.
Der Ausbruch der Nachfrage hat erst begonnen, und der Marktanteil von Suiyuan Technology in diesem Bereich wächst stetig. Im ersten Quartal 2026 betrug der Umsatz von Suiyuan Technology 287 Millionen Yuan, was einem Anstieg von 1.474 % gegenüber dem Vorjahr entspricht.
Der Markt bietet weiterhin Chancen.
Nehmen wir Biren Technology als Beispiel. Im Jahr 2025 betrug sein Umsatz 103,5 Millionen Yuan, was einem Anstieg von 207 % gegenüber dem Vorjahr entspricht. Das Unternehmen hat Kunden in nationalen Rechenleistungsprozessoren, Telekommunikationsbetreibern und AI-Großmodell-Unternehmen. Eine Gewinnspanne von 53,8 % zeigt, dass seine Produkte im Markt eine starke Verhandlungsposition haben.
Hinter all dem ist der von DeepSeek-V4 geöffnete Marktfenster. Von der steigenden Anzahl von Aufträgen für Huawei Ascend bis zum Gewinn von Cambricon und der Tag-0-Anpassung von acht chinesischen Chips können die chinesischen Chips jetzt die produktionsrelevanten Inferenzlasten von Top-Großmodellen tragen.
Mehrere Wege für die differenzierte Entlastung
Wenn man den Abstand zwischen chinesischen GPUs und NVIDIA nur anhand eines Kriteriums misst, ist es am besten, die Zeit heranzuziehen, nicht die Rechenleistung der Chips.
Die NVIDIA CUDA-Ekologie hat sich in 20 Jahren entwickelt und hat weltweit 4 Millionen Entwickler. Die Standardanpassung der meisten gängigen AI-Frameworks weltweit bildet die Schutzmauer des Chip-Reiches. Wenn Entwickler die CUDA-Ekologie verlassen möchten, kostet es nicht nur Geld, sondern auch die jahrelange Code-Akkumulation, die Debugging-Gewohnheiten und die Abhängigkeit von Werkzeugketten eines Teams. Es ist die muskuläre Erinnerung der Entwickler.
Aber was noch interessanter ist, dass die chinesischen GPU-Unternehmen in viel weniger als 20 Jahren mehrere Wege gefunden haben, um die NVIDIA-Lösung zu umgehen.
Der erste Weg ist die Kompatibilität. Moore Threads geht diesen Weg. Der Software-Stack der selbst entwickelten MUSA-Architektur ist hochkompatibel mit der CUDA-Ekologie. Das Ziel ist es, Entwicklern die Migration ihrer Anwendungen von der NVIDIA-Plattform mit minimalem Migrationsaufwand zu ermöglichen.
Mit anderen Worten, Moore Threads bietet den zahlreichen CUDA-Nutzern einen reibungslosen Übergangskanal. Am 18. Mai dieses Jahres hat Zhang Jianzhong, Gründer von Moore Threads, auf der jährlichen Pressekonferenz in Peking direkt gesagt:
"Das Ziel von MUSA war nie, eine Alternative zu CUDA zu sein, sondern es den CUDA-Entwicklern zu ermöglichen, nahtlos auf die chinesische Plattform zu wechseln und tatsächlich Plug-and-Play zu realisieren."
Der zweite Weg ist es, die NVIDIA-Lösung zu umgehen. Huawei Ascend und Suiyuan Technology verwenden die domänenspezifische Architektur (DSA), d. h. sie entwickeln Chips speziell für AI-Training und -Inferenz und streben keine allgemeinen Fähigkeiten wie Grafikrendering an.
Der Kerngedanke dieses Weges ist, für AI zu sein. Indem man in den Chips spezielle Rechenmodule für häufige AI-Trainingsszenarien wie Matrixrechenmodule und Vektorrechenmodule entwirft, konzentriert man die Ressourcen auf die Hardwareoptimierung für AI-Berechnungen und erreicht so in AI-Szenarien eine höhere Effizienz und einen geringeren Stromverbrauch als bei allgemeinen GPUs.
Zum Beispiel ist die Überlegenheit der DSA-Strategie am besten an der Leistung der einzelnen Karte der Huawei Ascend 950PR gegenüber der NVIDIA H20 zu sehen.
Die Entwicklung von Suiyuan Technology ist besonders typisch. Das Unternehmen bricht mit dem Modell, Standardchips herzustellen und auf die Kundenwünsche zu warten, und arbeitet stattdessen eng mit den Modellanbietern zusammen. Tencent stellt die Anforderungen, und Suiyuan Technology optimiert die Lösung auf die spezifischen Bedürfnisse ab. Bisher haben die drei Chip-Generationen von Suiyuan Technology in Tencent bereits in Hunderten von Geschäftsszenarien, von der Spracherkennung in WeChat bis zur Protokollierung von Tencent Meetings, von der Werbungempfehlung bis zur Inhaltsüberprüfung, eingesetzt werden.
Diese Strategie hat in der Tencent-Ökosystem tatsächlich Ergebnisse erzielt. Der Umsatz von Suiyuan Technology ist von 301 Millionen Yuan im Jahr 2023 auf 990 Millionen Yuan im Jahr 2025 gestiegen, was einer durchschnittlichen jährlichen Wachstumsrate von 81,32 % entspricht.
Biren Technology wählt dagegen ein Modell, das Software und Hardware kombiniert. Seine intelligente Rechenlösung bietet sowohl selbst entwickelte Chips, Karten, Server und sogar vollständige intelligente Rechencluster als auch die selbst entwickelte BIRENSUPA-Softwareplattform, die einen Compiler, eine Operatorbibliothek, eine Kommunikationsbibliothek und andere vollständige Softwarestacks enthält und mit gängigen AI-Frameworks kompatibel ist. Auf Systemebene bietet Biren Technology die Fähigkeit zur Lieferung von Clustern mit Tausenden von Karten.
Eine Reihe von Daten kann die Stärke dieses Kombinationsmodells belegen. Im Jahr 2025 betrug der Umsatz der intelligenten Rechenlösung 102,8 Millionen Yuan, was mehr als 99 % des gesamten Umsatzes ausmacht.
Die Wachstumswege der chinesischen GPUs können mit einem Satz zusammengefasst werden: Neben der Leistung einer einzelnen Karte bauen sie ihre eigene ökologische Schutzmauer auf - von der allgemeinen Kompatibilität zur speziellen Effizienz, von den Chips zur Lösung, von den Großmodellen zur wissenschaftlichen Berechnung. In jeder Dimension gibt es Akteure, die mit voller Kraft voranschreiten.
Von der Substitution zur Eigenentwicklung
Der chinesische AI-Chip-Markt wandelt sich derzeit von einer monopolen Struktur, in der NVIDIA dominiert und die anderen folgen, in ein multipolisches Schlachtfeld, in dem die neuen Kriterien "ausreichend + günstig + kontrollierbar" gelten.
Nach Daten von Institutionen wie IDC belief sich die Gesamtliefermenge von chinesischen AI-Beschleunigungskarten im Jahr 2025 auf etwa 4 Millionen Stück. Davon wurden etwa 2,2 Millionen Stück von NVIDIA geliefert, was einem Marktanteil von etwa 55 % entspricht, ein Rückgang von 95 % zu seiner Spitzenzeit. Im gleichen Zeitraum wurden von einheimischen Herstellern insgesamt etwa 1,65 Millionen Stück geliefert.
Bei dieser Umstrukturierung hat sich in der chinesischen Camp eine klare Hierarchie gebildet. Mit einer Liefermenge von 812.000 Stück führt Huawei Ascend an, und Unternehmen wie Alibaba's T-Head, Baidu's Kunlunxin und Cambricon sind ebenfalls stark. Sie haben die Alleinstellung von NVIDIA beendet.
Im März dieses Jahres hat ein Artikel von der Ling-Team, die von He Zhengyu, Chief Technology Officer der Ant Group, geleitet wird, gezeigt, dass die Kosten für das Training von einer Billion Tokens mit einem optimierten Hardware-System mit niedrigerer Spezifikation von 6,35 Millionen Yuan auf 5,08 Millionen Yuan gesenkt werden können, was einer Reduzierung von etwa 20 % entspricht.
Mit anderen Worten, chinesische Chips können bereits die Trainings von führenden Modellen unterstützen, ohne die fortschrittlichen Chips von NVIDIA zu benötigen.
Nach Vorhersagen der CITIC Securities wird der chinesische AI-Chip-Markt bis 2026 einen Umsatz von über 300 Milliarden Yuan erreichen. Die Explosion der Nachfrage nach der Training und Inferenz von Großmodellen, der Bau von intelligenten Rechenzentren und die Erhöhung der AI-Penetration in Unternehmen sowie die fortschreitende Substitution von ausländischen Produkten durch chinesische werden die chinesischen GPUs antreiben, um bis etwa 2028 einen Marktanteil von über 40 % am Inferenzmarkt und über 25 % am Trainingsmarkt zu erreichen.
Eine noch wichtigere Veränderung findet auf struktureller Ebene statt. Im Jahr 2026 bildet sich ein doppeltes Muster in der AI-Branche: "Tiefgreifende Entwicklung in der Cloud + Explosion am Rand". Im Randbereich sind die Anwendungen von Industriellen Internet, Autonomem Fahren und Digitalem Zwilling in eine Phase des Ausbruchs eingetreten. Die riesige Anzahl von Rand-AI-Knoten, die fragmentierte Szenarien haben und extrem empfindlich gegenüber Stromverbrauch und Kosten sind, werden eine Nachfrageexplosion erleben.
Diese Art von Nachfrage ist nicht der Stärkenbereich von NVIDIA, sondern ein großer Kuchen für die chinesischen GPUs. Sie wird nicht von NVIDIA weggenommen, sondern von NVIDIA zurückgelassen.
Wenn man genauer hinsieht, zeigen die offiziellen Daten von DeepSeek, dass die Rechenleistungseffizienz der chinesischen Chips von 60 % im Durchschnitt auf 85 % gesteigert wurde und die Inferenzkosten auf ein Drittel der NVIDIA-Lösung gesenkt werden können.
Mit anderen Worten, die Top-Projekte haben gezeigt, dass der geschlossene Kreis von chinesischen Chips + chines