Mit 60.000 chinesischen Karten trainiertes Billionen-Modell: Was können LongCat und DeepSeek beweisen?

Chinesische Rechenleistung besteht die erste große Prüfung.

Am 24. April 2026 gab es im globalen KI-Sektor ein seltenes Phänomen: Drei bedeutende Ankündigungen an einem Tag.

Um Mitternacht veröffentlichte OpenAI offiziell GPT-5.5 und behauptete, es sei „das bisher intelligenteste und benutzerfreundlichste Modell“. OpenAI rückt damit näher an das Ziel eines „Super-Applikations“ heran.

Am Vormittag tauchte die lang erwartete DeepSeek V4-Serie auf. Mit 1,6 T Gesamtparametern, einer Aktivierungsgröße von 49 Mrd. und einem Kontextfenster von 1 M sowie der später angekündigten Open-Source-Strategie ließ viele Menschen den Kommentar fallen: „Der Preisjäger ist zurück“. Am Nachmittag startete Meituan die offene Testphase seines neuen Basis-Großmodells LongCat-2.0-Preview. Es unterstützt ebenfalls ein 1-M-Kontextfenster und kann bei einer einzigen Inferenz Millionen von Wörtern verarbeiten. Bemerkenswert ist auch, dass seine Parameteranzahl vergleichbar mit der von V4 ist.

An demselben Tag begrüßte der „Billionen-Club“ der Großmodelle zwei chinesische Teilnehmer.

Wenn man die Nachricht „Google plant eine Investition von bis zu 40 Milliarden US-Dollar in Anthropic“ hinzunimmt, ist dieser Tag definitiv einen mehrfachen Blick wert.

Einer Seite sind die amerikanischen Giganten, die ihre technologischen Vorteile und Einflussmöglichkeiten weiter stärken. Die andere Seite sind die chinesischen Technologieunternehmen, die hauptsächlich das Open-Source-Modell repräsentieren. Wir können die beiden Seiten nicht nur aus der Perspektive eines einfachen Parameterwettbewerbs betrachten. Dennoch ist es nicht zu übersehen, dass sowohl DeepSeek V4 als auch LongCat-2.0-Preview sich vollständig und tiefgehend an das chinesische Rechenleistungsekosystem anpassen.

Es ist bekannt, dass DeepSeek-V4 die vollständige und tiefe Anpassung an die wichtigsten chinesischen KI-Chips wie Huawei Ascend und Cambricon abgeschlossen hat. Die Training und Inferenz von LongCat-2.0-Preview wurden vollständig auf der Grundlage chinesischer Rechenleistungskluster durchgeführt. Es ist derzeit das einzige Billionen-Modell, das auf chinesischen Karten trainiert wurde.

Eine Branchenzeitschrift beschrieb es so: „Sie trainieren Modelle von gleicher Qualität mit einem Bruchteil der Ressourcen von OpenAI.“

Objektiv betrachtet gibt es immer noch einen Abstand zwischen den chinesischen Chips und NVIDIA in Bezug auf die absolute Leistung einer einzelnen Karte und die Rechenleistung des Clusters. Aber dass zwei chinesische Großmodelle sich auf das chinesische Rechenleistungsekosystem stützen, hat zweifellos eine bahnbrechende Bedeutung. Wenn OpenAI für „geschlossener Algorithmus + NVIDIA-Rechenleistung“ steht, dann bedeutet die Versionsoberholung von DeepSeek und Meituan LongCat, dass die chinesische KI-Industrie einen wichtigen Schritt auf dem Weg von „Open-Source + chinesische Rechenleistung“ gemacht hat.

„Sobald die wichtigsten Open-Source-Großmodelle in dem chinesischen Rechenleistungsekosystem massenhaft umgesetzt werden, wird die Schutzmauer der amerikanischen Chips im KI-Bereich vollständig durchbrochen.“ Die Sorge, die NVIDIA-Chef Jensen Huang in einem Interview vor kurzem ausdrückte, wird zur Realität.

Was bedeutet es, dass zwei chinesische Großmodelle gleichzeitig in den „Billionen-Club“ aufgenommen werden?

Die „Zusammenführung“ der chinesischen Großmodelle auf der Ebene der „Rechenleistungsselbständigkeit“ lässt die bisher von wenigen Anbietern dominierte KI-Rechenleistungslage eine bemerkenswerte Veränderung erfahren.

In den letzten Jahren standen die chinesischen KI-Unternehmen nicht nur vor dem Problem der „begrenzten Rechenleistung“, sondern auch unter der doppelten Einschränkung von „Hardware + Software“. Auf der Hardware-Seite spielte NVIDIA in der Tat lange Zeit die Rolle des „Rechenleistungsmopolisten“.

Die Daten zeigen, dass seine Chips etwa 90 % des globalen KI-Trainingsmarktes und etwa 97 % des KI-Servermarktes einnehmen. Aufgrund des Nachfrageüberschusses behalten die High-End-KI-Rechenleistungschips jahrelang einen Preisaufschlag von 30 % bis 70 %. Jensen Huang gab in der Ergebnisbesprechung im November 2025 bekannt, dass der Gesamtbetrag der unbezahlten Bestellungen auf 500 Milliarden US-Dollar lag und die High-End-Architektur bis 2027 ausgebucht war. Gleichzeitig setzt die USA die Beschränkung der Exporte von fortschrittlichen Chips nach China fort. Die chinesischen Unternehmen können nur Produkte mit eingeschränkter Leistung kaufen. Sowohl die Entwicklung von allgemeinen Großmodellen als auch die Umsetzung von industriellen KI-Anwendungen sind von der tatsächlichen Rechenleistungseinschränkung betroffen.

Auf der Software-Seite nimmt auch die Tendenz zur Closed-Source weiter zu. OpenAI, Google, Anthropic und andere schließen ihre Kernalgorithmen, Trainingsdaten und Gewichte vollständig ab, beschränken den Zugang für den chinesischen Markt und verbieten die lokale Installation und Weiterverteilung. Im Jahr 2026 gründete OpenAI zusammen mit Anthropic und Google eine Allianz, um die technologische Destillation von chinesischen Großmodellen einzuschränken.

Angesichts der realen äußeren Einschränkungen ist die Schaffung eines eigenständigen und kontrollierbaren KI-Ekosystems für die chinesischen Unternehmen keine Option, sondern eine Pflicht.

Das gleichzeitige Erscheinen von DeepSeek V4 und Meituan LongCat-2.0-Preview sendet ein klares Signal: Die chinesischen Chips und das chinesische KI-Ekosystem erreichen in einigen Spitzenbereichen den entscheidenden Sprung von „nutzbar“ zu „gut nutzbar“.

Noch wichtiger ist, dass zwischen den chinesischen Großmodellen und der chinesischen Rechenleistung ein positiver Zyklus von „sich gegenseitig fördern“ entsteht. Die extreme Prüfung der Billionen-Modelle macht die Basis der chinesischen Rechenleistung fester. Es ist bekannt, dass die Training und Inferenz von LongCat-2.0-Preview vollständig auf der Grundlage chinesischer Chips durchgeführt wurden. Dabei wurden 50.000 bis 60.000 chinesische Rechenleistungskarten eingesetzt, was einen neuen Rekord für die größte chinesische Rechenleistungsskala bei der Training eines Großmodells setzt.

Umgekehrt lässt der Fortschritt des chinesischen Chip-Ekosystems das Modell selbst äußerst kostengünstig werden und schließt schnell die Lücke zu den ausländischen Closed-Source-Produkten.

In der praktischen Anwendung ist die Leistung von LongCat-2.0-Preview, obwohl es weniger Aufmerksamkeit als DeepSeek V4 erhält, nicht zu unterschätzen. Seine Parameteranzahl hat ebenfalls die Billionengrenze überschritten, und seine tatsächliche Effizienz gehört zu den Spitzenleistungen. Beispielsweise kann es in einer Minute eine komplexe interaktive HTML-Website über die Entstehung und die Dynastienwechsel der chinesischen Geschichte generieren. Nicht nur ist der Inhalt flüssig und logisch, sondern auch die visuelle und codebasierte Wirkung ist nicht schlechter als die der wichtigsten Closed-Source-Modelle.

„Wenn dieser Weg erfolgreich ist, bedeutet es, dass die globalen Entwickler und Unternehmen mehr Auswahlmöglichkeiten haben.“ Ein Branchenkenner sagte, dass die Trainingsschwelle für Billionen-Parameter-Modelle früher extrem hoch war und als ein Gebiet betrachtet wurde, das nur von Unternehmen mit den besten NVIDIA-GPU erreicht werden konnte. Die Hinzunahme von zwei chinesischen Mitgliedern in den „Billionen-Club“ der Großmodelle markiert einen wichtigen Wendepunkt für die chinesische Rechenleistung.

Warum wird die Annäherung an die chinesische Rechenleistung zum Konsens?

Der Durchbruch der chinesischen Rechenleistung hängt von der Zusammenarbeit zwischen Modellherstellern, Technologiegiganten und Chipherstellern ab. Dieser Prozess hat eine tiefgreifende Veränderung von der passiven Reaktion zur aktiven Planung und von der punktuellen Lösung zu einem ökosystemaren Konsens erfahren.

Vor 2022 lag der Marktanteil der chinesischen KI-Beschleunigungskarten unter 5 %. Die Tatsache, dass die Kerntechnologie in fremden Händen liegt, ist eine unumgängliche Realität. Die Versorgung mit Rechenleistung war stark von Importen abhängig. Dies führte nicht nur zu hohen Anschaffungskosten, sondern auch zu dem Risiko, dass die Lieferkette jederzeit unterbrochen werden könnte. Aufgrund der schwierigen Überwindung der CUDA-Ekosystembarriere befand sich die chinesische Rechenleistung lange Zeit am Rande der Branche und musste sich an den etablierten ausländischen Technologierouten anpassen.

Allerdings hat die Veränderung der geopolitischen Situation und die Veröffentlichung von politischen Maßnahmen wie dem „Aktionsplan für die hochwertige Entwicklung der Rechenleistungsinfrastruktur“ dazu geführt, dass die Unterstützung der chinesischen Rechenleistung von einem Schlagwort zu einem Branchenkonsens geworden ist.

Der neueste Bericht von IDC zeigt, dass im chinesischen Markt für KI-Beschleunigungskarten im Jahr 2025 die Gesamtliefermenge der chinesischen Chips auf 1,65 Millionen Stück gestiegen ist und der Marktanteil über 40 % erreicht hat. Die Marktprognose besagt, dass der Marktanteil der chinesischen KI-Chips, angeführt von Ascend, im Jahr 2026 erstmals die 50 %-Grenze überschreiten könnte.

Derzeit hat die Unterstützung der chinesischen Rechenleistung in den chinesischen Unternehmen drei repräsentative Hauptmodelle entwickelt:

Eines ist das Modell der „Eigenbau von Rechenleistungskluster“ durch große Unternehmen. Internetriesen wie Alibaba, Tencent und ByteDance bauen auf der Grundlage ihrer Cloud-Dienste groß angelegte chinesische Rechenleistungszentren auf und setzen Chips wie Ascend und Cambricon massenhaft ein. Sie bieten ihren eigenen Modellen und Drittentwicklern kostengünstige Rechenleistung und senken so die Einstiegshürde für die Branche auf der Angebotsseite.

Eines ist das Planungsmodell von „frühe Investition + Ökosystem“. Nehmen wir Meituan als Beispiel. Wang Xing hat einmal erwähnt, dass Meituan in der KI-Branche kontinuierlich und intensiv investiert hat. „Außer den Unternehmen mit Cloud-Computing-Diensten ist Meituan wahrscheinlich das Unternehmen mit der größten Investition in KI in China, und es hat diese Strategie seit über drei Jahren verfolgt.“ Derzeit hat Meituan ein riesiges Rechenleistungsmatrix um allgemeine GPU, Chip-Design, Halbleitermaterialien und Edge-KI aufgebaut und in mehr als 14 Halbleiter- und intelligente Hardwareunternehmen wie Moore Threads, Muxi Technology und Spreadtrum investiert.

Es gibt auch ein interessantes Modell, das „Software-Hardware-Synergie“-Modell. Während der Anpassung und Nutzung der chinesischen Rechenleistung durch die Modellhersteller gibt es eine kontinuierliche Interaktion und Rückkopplung. Beispielsweise hat das Meituan-KI-Team während des Trainings die Kernoperatoren neu geschrieben und optimiert und selbst entwickelte Operatoren mit vollständiger Bestimmtheit eingesetzt. In Anpassung an die Eigenschaften der chinesischen Hardware hat es ein „freundliches“ Trainingsframework und eine Modellstruktur entwickelt, um das Rechenpotential der chinesischen Chips maximal auszuschöpfen.

Der Kern liegt in der „Modelldefinition der Rechenleistung und der Rechenleistungssupport des Modells“. Die Erfahrungen, die die Großmodellunternehmen bei der Training auf chinesischer Rechenleistung gesammelt haben, tragen direkt zur Iteration und Optimierung der chinesischen Chips bei und beschleunigen die Reife des Ökosystems.

Heute sind die wichtigsten Modelle wie Zhipu GLM-5, Wenxin Yiyan, Tongyi Qianwen und Doubao vollständig oder im Prozess der Anpassung an die chinesische Rechenleistung.

Das chinesische KI-Ekosystem ist immer noch eine harte Dauerschlacht

Trotzdem, während DeepSeek, LongCat und andere Unternehmen Durchbrüche erzielen, muss die chinesische KI-Branche sich bewusst sein, dass es immer noch einen objektiven Abstand zwischen den chinesischen Rechenleistung und den Großmodellherstellern im Vergleich zu NVIDIA und OpenAI gibt. Es ist noch lange nicht Zeit, die Champagner zu öffnen.

Ein Detail ist, dass DeepSeek nicht vollständig auf das NVIDIA-Ekosystem verzichtet, sondern stattdessen die Strategie von „zwei Stapel parallel“ mit NVIDIA und Ascend gewählt hat. Schließlich kann die extreme Optimierung auf algorithmischer Ebene die Unterschiede auf physikalischer und ökosystemarer Ebene wie die Bandbreite der Chip-Interkonnektion und das Basis-Software-Ekosystem (z. B. die Vorsprung von CUDA) noch nicht vollständig ausgleichen.

Ein Branchenkenner hat eine präzise Bewertung gegeben: „DeepSeeks extreme Ausnutzung des Arbeitsspeichers und der Aktivierungsparameter, die kreative Nutzung der MoE-Architektur und die Konzentration auf die Rechenleistung jedes Tokens ist nicht zur Demonstration von Fähigkeiten, sondern um die eingeschränkte Hardware zu verbessern.“

Von der Verfolgung bis zur teilweisen Gleichstellung wird die chinesische KI-Industrie sicherlich noch eine lange Dauerschlacht führen müssen. Aber das Vertrauen in das chinesische KI-Ekosystem wächst.

Einerseits hat die chinesische KI-Branche einen differenzierten Weg von Open-Source-Modell, Algorithmusinnovation und Szenario-Ekosystem entwickelt. Als das größte Industrieland der Welt hat China die vielfältigsten physikalischen Szenarien und Bedürfnisse der Welt. Dies ist ein einzigartiger Vorteil, den amerikanische Unternehmen wie OpenAI schwerlich nachahmen können.

Nehmen wir Meituan als Beispiel. Es hat ein sofortiges Liefernetzwerk in mehr als 2.800 Städten und Kreisen in China und hat in der Drohnen- und Fahrerlosen-Lieferung eine riesige Menge an Daten gesammelt. Diese Geschäfte decken die komplexesten Aufgaben und physikalischen Umgebungen in China ab und bieten ein natürliches Testfeld für die Anwendung und Weiterentwicklung von Großmodellen. Die praktischen Geschäfte wie Fahrerlosen-Lieferung und Lebensmittelsicherheit bieten auch reale „Bedürfnisanregungen“ für Chips mit verschiedenen Rechenarchitekturen und Leistungen. Andererseits zeigt die chinesischen Großmodelle und die chinesische Rechenleistung unter der großen Nachfrage eine „exponentielle“ Iterationsgeschwindigkeit.

Außer DeepSeek V4 und Meituan LongCat-2.0-Preview werden die Spitzenmodelle wie Zhipu GLM-5, MiniMax M2, Wenxin Yiyan 4.0 und Tongyi Qianwen 3.5 kontinuierlich und schnell verbessert. Auf der Rechenleistungseite werden neue Hardware wie Huawei Ascend und Sugon intensiv eingesetzt. Die Migration der gesamten Kette von „Training - Inferenz - Deployment“ auf die chinesische Rechenleistungsbasis hat bereits in die praktische Phase eingetreten.

Die beiden Wege treffen aufeinander, und die synthetische Potenz der chinesischen Modelle und Rechenleistung akkumuliert sich beschleunigt. Am 13. April veröffentlichte die Stanford University HAI den „AI-Index Report 2026“

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mit 60.000 chinesischen Karten trainiertes Billionen-Modell: Was beweisen LongCat und DeepSeek?

Was bedeutet es, dass zwei chinesische Großmodelle gleichzeitig in den „Billionen-Club“ aufgenommen werden?

Warum wird die Annäherung an die chinesische Rechenleistung zum Konsens?

Das chinesische KI-Ekosystem ist immer noch eine harte Dauerschlacht