Wird der Mangel an Rechenleistung Chinas KI zu einer Blase machen?
Yann LeCun, einer der sogenannten "AI-Gurus", hat kürzlich eine sehr beängstigende Prognose geäußert. Er meint, dass der Bruch der AI-Blase nicht so weit entfernt ist, wie man denkt, und dass sie jederzeit platzen könnte. Diese Schlussfolgerung gilt auch für die chinesische AI-Branche.
Seine Ansicht ist sehr durchschaubar - die Blase bedeutet nicht, dass AI keinen Wert hat, sondern dass sie viel zu wertvoll ist. Wenn jedoch die Nachfrage nach AI nicht mit einem ausreichend niedrigen Rechenleistungskostenaufwand gestützt werden kann, können die Einnahmen vieler Unternehmen nicht die Erwartungen erfüllen, was zu einem Kollaps der Marktkapitalisierung führt und schließlich zur Entstehung einer Blase.
Das eigentliche Anliegen dieses Artikels ist es nicht zu fragen, ob Zhipu oder Kimi intelligenter ist, noch ob der Ansatz von DeepSeek klüger ist, sondern es geht um eine realistischere Frage: Wenn alle in einer Schlange stehen und auf Token warten, kann China für seine eigene AI-Versorgungskette eine frei zugängliche, ausreichende und kontinuierlich kostengünstigere Produktionskapazität aufbauen?
Wenn wir bei der Ankunft der Rechenleistungsexplosion über genügend und kostengünstige Token-Produktionskapazität verfügen, ist die heutige Beschränkung der Verfügbarkeit nur die Ansammlung vor der Dämmerung. Wenn diese Kette nicht aufgebaut werden kann, wird es nicht nur die Charakteristik eines bestimmten Produkts sein, sondern eine Blase und der laute Knall, wenn sie platzt.
01
Die AI-Blase ist nicht so fern
Yann LeCun, einer der sogenannten "AI-Gurus", hat kürzlich eine sehr beängstigende Prognose geäußert. Er meint, dass der Bruch der AI-Blase nicht so weit entfernt ist, wie man denkt, und dass sie jederzeit platzen könnte. Diese Schlussfolgerung gilt auch für die chinesische AI-Branche.
In einem Interview mit CNBC am 18. Juni hat er eine sehr einfache wirtschaftliche Rechnung angestellt: Obwohl die Preise für hochwertige AI-Produkte ständig steigen, sinken die Kosten für die Token, die sie betreiben, zu langsam. So langsam, dass fast alle Unternehmen mit Geld der Investoren für die Benutzer aufkommen.
Seine Schlussfolgerung ist einfach: Wenn die Kostenbilanz für Token nicht verbessert werden kann, funktioniert die Schleife von Superbewertung - Supermarktkapitalisierung - rascher Einnahmenanstieg nicht. Wenn die gesamte Branche in diese Todesspirale gerät und beweist, dass die neuesten AI-Technologien nicht genügend Einnahmen generieren können, wird die Blase "nicht lange halten".
Dies ist keine Schreckgesichte.
Nach der Fusion von xAI von Elon Musk mit SpaceX hat sich der Unternehmenswert auf 2 Billionen US-Dollar geschossen, aber in einem Quartal wurden 2,5 Milliarden US-Dollar verloren und die Einnahmen beliefen sich nur auf etwas über 800 Millionen US-Dollar. Anthropic, das Claude entwickelt, bezahlt monatlich 1,25 Milliarden US-Dollar, um Karten von Musk zu mieten, um sein eigenes Modell auszuführen. Selbst OpenAI, das sich bisher immer hartnäckig gewehrt hat, hat Altman zugeben müssen, dass die Kosten jetzt "ein großes Problem" sind.
Dies ist ein altes Muster aus der Internetzeit - mit Geld der Investoren die Benutzer zu subventionieren, zuerst die Größe zu maximieren und dann nach Möglichkeiten zur kommerziellen Monetarisierung zu suchen. Wenn keine gefunden werden, platzt die Blase. Bei der AI wird jedoch noch höher gesetzt: Alle setzen darauf, dass die Kosten für die Inferenz stetig sinken, bis sie eines Tages schneller fallen als die Kosten steigen. Wenn der Wetteinsatz erfolgreich ist, beginnt die neue Ära der AI. Wenn nicht, bleibt es wie nach der Internetblase in einem Durcheinander.
Der Schlüssel liegt in einer ausreichenden und kostengünstigen Token-Produktionskapazität. Derzeit scheint die chinesische AI jedoch bereits an diese Rechenleistungskapazitätsgrenze gestoßen zu sein.
In diesem Juni sind mehrere der stärksten chinesischen Programmier-Großmodelle auf den Markt gekommen: Am 13. Juni hat Zhipu das GLM - 5.2 Open - Source - Modell veröffentlicht, dessen Code - Fähigkeiten weltweit zeitweise auf Platz zwei lagen, nur hinter Claude. Kimi hat das auf die Programmierung spezialisierte K2.7 Code-Modell vorgestellt, und MiniMax hat das auf Intelligenzagenten ausgerichtete M3-Modell herausgebracht. Fast gleichzeitig haben diese Unternehmen jedoch das Gegenteil getan - sie haben versucht, die Käufe zu beschränken.
Zurzeit muss man die Angebote von Zhipu täglich ergreifen, und die Preise steigen dreimal im Jahr. Die Schnittstellen von Kimi und MiniMax sind überlastet, und die Entwickler stehen in einer Schlange und "warten auf Token". Die Situation bei den Großkonzernen ist etwas besser, aber auch bei ihnen ist die Rechenleistung für die hochwertigen Produkte knapp, und sie haben die Benutzer mehrmals gewarnt.
Das, was eigentlich die zukünftige Marktkapitalisierung in unbegrenzter Menge unterstützen sollte, ist zu einer "rationierten Versorgung" in einer Zeit der wirtschaftlichen Knappheit geworden. Dies ist an sich sehr ironisch.
Der Alarm ist jedoch real und eindeutig - wenn ein Unternehmen, das digitale Produkte verkauft, den Kauf beschränkt, bedeutet dies, dass es eingesteht, dass es nicht mehr Software verkauft, die unbegrenzt kopiert werden kann, sondern ein Industrieprodukt mit einer begrenzten Produktionskapazität. Dies ist der erste Alarm, der aus dem chinesischen AI - Produktionskapazitätstank kommt.
Was noch schlimmer ist, wenn die Betriebskosten nicht sinken, wartet hinter diesem Alarm nicht nur die Beschränkung der Verfügbarkeit, sondern die Blase, von der Yann LeCun spricht, und der laute Knall, wenn sie platzt.
02
Warum können die Shareholder und Geldgeber nicht mehr verlassen werden?
Die gegenwärtige Rechenleistungsknappheit ist nicht durch die tägliche Aktivität von Endbenutzern wie Doubao verursacht. Das, was die Nachfrage in die Höhe treibt, ist das in diesem Jahr von chinesischen und globalen Großmodellen gemeinsam betonte AI - Programmieren und der Intelligenzagenten - Scheduling - Rahmen.
Selbst bei einem sehr ausführlichen Chat werden nur einige zehntausend Token verbraucht. Ein Programmierintelligenzagent muss jedoch die gesamte Code - Bibliothek verarbeiten, Befehle wiederholt ausführen, Dateien ändern und Selbsttests durchführen. Bei der Demonstration von M3 hat MiniMax ihm die Aufgabe gegeben, eine Studie unabhängig zu reproduzieren, und er hat fast 12 Stunden lang selbstständig gearbeitet. Der Token - Verbrauch für solche Aufgaben ist um ein Vielfaches höher als bei einem Chat.
Am Tag der Veröffentlichung von M3 hat MiniMax daher die monatliche Pauschalabrechnung, die es seit Jahren verwendet hat, in eine Token - basierte Abrechnung umgestellt. Die erprobten Kosten für schwere Benutzer sind um ein bis zwei Mal gestiegen.
US - Branchenmitglieder haben ein noch extremeres Verhältnis errechnet - ein Entwickler hat die Token - Kosten für sein 200 - US - Dollar - Angebot bei der Nutzung von Claude und ChatGPT berechnet und schließlich die genaue zehnfache Summe von 2.048 US - Dollar erhalten.
Die guten alten Zeiten, in denen man für einige Zehn Dollar im Monat unbegrenzt nutzen konnte, scheinen definitiv vorbei zu sein. Und es wird nicht nur MiniMax so machen - die Preislage für Software, die unbegrenzt kopiert werden kann, gilt als ungeeignet für AI und wird durch eine auf die Produktionskapazität basierende Preislage ersetzt. In Zukunft wird dies die Branchennorm sein.
Normalerweise sollten diese Unternehmen keine Probleme mit der Rechenleistung haben. Hinter Zhipu stehen Tencent, Alibaba, Ant Group, Meituan und Xiaomi. Der größte Shareholder von Kimi ist Alibaba mit einem Anteil von 40 %, und Tencent hat ebenfalls mitinvestiert. Normalerweise sollte es bei diesen Unternehmen, die an solchen Geldgebern mit einer großen Cloud - Rechenleistungskapazität hängen, keine Beschränkung der Verfügbarkeit geben.
Das Problem ist, dass die Geldgeber selbst keine Reserven haben.
Die Rechenleistungsknappheit im Jahr 2026 ist nicht auf den Ausfall eines einzelnen Bauteils zurückzuführen, sondern auf das gleichzeitige Erschöpfen der gesamten Kette von Chips, Speicher, Verkapselung, Netzwerk und Rechenzentren. Laut Branchenmeinung wird diese Spannung mindestens noch zwei Jahre andauern.
Ein Mitarbeiter eines ICT - Herstellers hat es sehr direkt ausgedrückt: Früher konnten zwei Millionen Yuan acht GPU - Server kaufen, jetzt reichen sie nur für vier oder fünf. Die Hersteller brechen lieber Verträge ab als die Server auszuliefern.
Im März hat Tencent Cloud daher zuerst die Preise für einige Produkte von seinem eigenen Hunyuan - Modell erhöht, bei einigen sogar um das Vierfache. Alibaba Cloud und Baidu Cloud haben innerhalb weniger Stunden gefolgt. Selbst Großmodell - Unternehmen mit einer soliden AI - Cloud - Geschäftsbasis haben Mängel. Dies ist die gegenwärtige Realität der chinesischen AI - Produktionskapazität.
Natürlich ist die Preisentwicklung nicht einseitig steigend. DeepSeek hat den Preis für die Schnittstelle von V4 - Pro permanent auf ein Viertel des ursprünglichen Preises gesenkt, Xiaomi MiMo hat ihn um 90 % reduziert, und Tencent Cloud hat den Preis für das von ihm auf der eigenen Plattform gehostete DeepSeek um 97 % gesenkt - der Aufrufpreis bei Cache - Treffern liegt bei 2,5 Cent pro Million Token, billiger als ein Telefonat.
Dies scheint im Widerspruch zu der "Mangel an Produktionskapazität" zu stehen, ist aber tatsächlich nicht widersprüchlich zu der Beschränkung der Verfügbarkeit, sondern die beiden Seiten der gleichen Knappheit: Diejenigen, die die Preise senken, wie DeepSeek und Xiaomi, sind Effizienzexperten, die die Cache - und Sparse - Architektur bis an die Grenzen ausnutzen und die Kosten für die billigen Produkte wirklich gesenkt haben. Diejenigen, die die Preise erhöhen und die Verfügbarkeit beschränken, wie Zhipu, betreffen die hochwertigen Programmierprodukte, die umso höher nachgefragt werden, je leistungsfähiger sie sind. Selbst Tencent setzt auf beide Seiten - es erhöht die Preise für sein eigenes Hunyuan - Modell und subventioniert das DeepSeek - Modell anderer.
Was noch interessanter ist, hat sich die Übereinkunft zwischen Start - Modellunternehmen und Geldgebern subtil verändert.
Die Internet - Großkonzerne, die diese Modellunternehmen investiert haben, insbesondere diejenigen, die selbst in der AI - Branche tätig sind, hatten ursprünglich zwei Motive: Technisch gesehen wollten sie ein externes Team unterstützen, um ihre eigene Forschung zu sichern. Kommerziell wollten sie mit Kapital einen langfristigen Kunden binden - wenn Sie mein Geld nehmen, kaufen Sie meine Rechenleistung, und ich bekomme das Geld zurück. Dies schien ein Win - Win - Szenario.
Wenn die Rechenleistung jedoch knapp wird, erlebt der investierte Kunde, der eigentlich ein VIP sein sollte, die andere Seite der Bindung: Einige Cloud - Großkonzerne haben öffentlich erklärt, dass sie die knappe Rechenleistung ihren eigenen wertvollen Geschäftsbereichen vorziehen werden, und die investierten Start - Unternehmen müssen hinten anstellen. Im Grunde ist Ihr Vermieter, Ihr Gläubiger und Ihr Konkurrent oft dieselbe Person.
Die Schnittstellen sind weiterhin überlastet, die Angebote sind weiterhin beschränkt, und das Geld wird weiterhin verbrannt. Laut Unternehmensprospekt hat Zhipu 70 % seiner Forschungs - und Entwicklungsausgaben für die Anschaffung von Rechenleistung aufgewendet und in dreieinhalb Jahren 6,2 Milliarden Yuan verloren. MiniMax hat ebenfalls 70 % seiner Forschungs - und Entwicklungsausgaben für die Anschaffung von Rechenleistung aufgewendet und in dreieinhalb Jahren etwa 9,2 Milliarden Yuan verloren. Die jährliche Einkaufsgrenze bei Alibaba Cloud steigt auch von Jahr zu Jahr.
Dies zeigt, dass es allgemein anerkannt ist, dass die Bindung nicht zu einer Priorität führt. Es bleibt nur ein unlösbares Problem: Die Produktionskapazität ist begrenzt, und wer die Kosten tragen kann, wird überleben.
Angesichts dieser Situation hat sich eine neue Idee entwickelt: Wenn die Geldgeber nicht zuverlässig sind, kann man sich nicht selbst helfen?
03
Die Erwachten
Zwischen den Modellunternehmen und den Investoren bestand ursprünglich eine freiwillige Übereinkunft: Sie investieren das Geld, und ich kaufe Ihre Rechenleistung. Ich bekomme die Rechenleistung, und Sie bekommen den Gewinn. Alles scheint perfekt. Wenn der Pool der Geldgeber jedoch nicht tief genug ist, hält diese Übereinkunft nicht mehr stand. Die Modellunternehmen müssen aus diesem scheinbar win - win - Szenario erwachen und sich selbst helfen.
Es gibt zwei Wege: Die Effizienz auf das Maximum zu steigern und die chinesische Produktionskapazität zu nutzen.
Den ersten Weg besprechen wir im nächsten Abschnitt. Zuerst sprechen wir über die Anpassung an chinesische Chips - in dieser Hinsicht stimmen die Unternehmen im Großen und Ganzen überein. Zhipu hat die Trainingscluster von GLM - 5 an Huawei Ascend übergeben, und Shenzhou Digital liefert die Server mit Ascend und Kunpeng exklusiv. Außerdem hat es das Anfang des Jahres veröffentlichte GLM - Image zum ersten Top - Multimodal - Modell gemacht, das vollständig auf chinesischen Chips trainiert wurde.
DeepSeek geht noch weiter. Das im April veröffentlichte V4 - Modell wurde trotz Verzögerung auf Huawei Ascend erstmals vorgestellt, und der untere Code wurde von Nvidias CUDA vollständig in Huaweis CANN umgeschrieben, um ein Signal über die kontrollierbare Produktionskapazität zu senden.
Die Anpassung von Zhipu an Ascend und die von DeepSeek an Ascend sind im Wesentlichen dasselbe. Aber wenn man einen Schritt weitergeht, gehen die beiden Wege auseinander.
Zhipu überlässt die Quelle der Rechenleistung weiterhin den Cloud - Anbietern und Shareholdern. DeepSeek geht jedoch direkt an die Spitze der Wertschöpfungskette: Einerseits gibt es zu verstehen, dass es kurzfristig nicht auf Gewinn aus ist, andererseits rekrutiert es wahnsinnig nach Fachkräften für die Errichtung und Verwaltung von Rechenzentren. Diese Vorgehensweise deutet auf den Bau