Von den Batteriezellen bis zur Cloud: Warum herrscht es in der gesamten Rechenleistungskette zu einem Engpass?
Eine laute und tiefgreifende industrielle Veränderung vollzieht sich derzeit in der gesamten Rechenleistungssupplychain.
Im Jahr 2026 hat eine globale Knappheit an Rechenleistung in der gesamten Branche, die Chip, Cloud, Server und Komponenten von Rechenzentren umfasst, die Welt erfasst. Die Knappheit an Rechenleistung und die Preissteigerungen in allen Segmenten durchziehen die gesamte KI-Industrie.
Die an der globalen Kapitalmärkte mit Rechenleistung verbundenen Unternehmen haben einen Höhepunkt erreicht. Der Tech-Index der NASDAQ steigt stetig, der Marktwert von NVIDIA steigt weiter, und die Einnahmen und Gewinne der Cloud-Business-Teile von Amazon, Microsoft und Google haben historische Höchstwerte erreicht. Die Schätzungen der beiden KI-Start-ups OpenAI und Anthropic nähern sich fast einem Billionen-Dollar-Wert.
Ähnliche Veränderungen sind auch auf dem chinesischen Markt aufgetreten. Der NASDAQ Golden Dragon China Index steigt kontinuierlich, und der Wert der Rechenleistung-Segmente an der chinesischen Börse wird neu bewertet. Die Aktienkurse von chinesischen KI-Chip-Unternehmen wie Hygon Information, Cambricon und Moore Threads haben in den letzten 12 Monaten lange Zeit auf hohem Niveau gelegen. Die Marktkapitalisierungen von Server-Unternehmen wie Foxconn Industrial Internet und Schlüsselunternehmen für Komponenten rund um die Rechenleistung wie Zhongji Innolight haben nacheinander neue Höchstwerte erreicht, und die Marktkapitalisierungen von Unternehmen in den speziellen Rechenleistungssubsektoren steigen stetig.
Der Kapitalmarkt und der Industriemarkt bilden derzeit eine Resonanz. Sowohl von Investmentinstituten als auch von innen in der Rechenleistungssupplychain werden von immer mehr Menschen die Ansicht vertreten: Diese Runde von Rechenleistungsknappheit ist keine traditionelle zyklische Ungleichgewichtung zwischen Angebot und Nachfrage, sondern eher ein Signal vor einem neuen industriellen Wandel.
In den letzten 20 Jahren war es das Konsensverständnis in der gesamten Technologiebranche, dass Rechenleistung immer billiger werden würde.
Das "Moore'sche Gesetz" der Halbleiterindustrie und der "Größeneffekt" der Cloud-Computing-Branche haben gemeinsam diesen Trend bewirkt - die Transistordichte der Chips steigt kontinuierlich, und die Kosten pro Rechenleistungseinheit sinken stetig. Die Cloud ermöglicht es, die Rechenleistung von mehr Benutzern flexibel zu planen, was die Nutzungsrate erhöht und die Kosten verteilt.
Im Jahr 2026 scheint diese Logik vorübergehend versagt zu haben.
Weil die globale Rechenleistungssupplychain in einen Zustand der allgemeinen Knappheit geraten ist - von den GPU (Grafikprozessoren), CPU (Zentralprozessoren), HBM (High-Bandwidth Memory) in Servern bis hin zu den optischen Modulen, Kupfermodulen, Hochgeschwindigkeits-Schaltern, Stromversorgung und Flüssigkeitskühlung in Rechenzentren sowie Cloud-Computing- und Token-Ressourcen, fast alles ist knapp im Angebot.
Die Schmetterlingseffekte beginnen zu erscheinen: Die Preise für Chips und Server steigen, die Cloud-Preise steigen, auch die Preise für Mobiltelefone und PCs steigen, da sie die Kosten für Chips und Speicher tragen müssen. Selbst kostenlose KI-Produkte wie die Doubao-App von ByteDance planen jetzt, Gebühren zu erheben.
Die Umkehrung des Angebots-Nachfrage-Gleichgewichts ist die Kernursache für diese Runde von Knappheit und Preissteigerungen.
Auf der Nachfrageseite bricht der Einsatz von Agenten (Intelligent Agents), einer Art KI-Anwendung, aus. KI geht von Chat-Anwendungen in die Arbeitswelt über und dringt in großen Umfang in die reale Produktionsumgebung ein. Bei jeder Frage-Antwort-Situation, jeder Aufgabeausführung, Codeerstellung und Agentenaufruf wird Rechenleistung für die Inferenz verwendet und Token (Worteinheiten) verbraucht. Basierend auf diesem Trend haben die Unternehmen im globalen Technologie- und Rechenleistungsbereich die größte Investition in Rechenleistung in den letzten zehn Jahren gestartet.
Die internationale Markt-Forschungsinstitution IDC prognostiziert für das Jahr 2026, dass die Anzahl der aktiven Agenten weltweit von 28,6 Millionen im Jahr 2025 auf 2,216 Milliarden im Jahr 2030 steigen wird. In fünf Jahren wird die Anzahl der aktiven Agenten fast 80-mal so hoch sein wie derzeit.
Auf dem chinesischen Markt ist das Wachstum des Rechenleistungsverbrauchs deutlich. Daten der Nationalen Datenbehörde zeigen, dass bis März dieses Jahres die tägliche Token-Aufrufzahl in China über 140 Billionen lag, was im Vergleich zu den 100 Milliarden Anfang 2024 eine Steigerung um das 1.400-fache darstellt.
Die Nachfrage bricht aus, aber das Angebot kann nicht mithalten. Auf der Angebotsseite sind die Halbleiter- und Rechenzentrum-Industrien Kapitalintensive und langfristige Branchen. Sowohl die HBM-Speicher von SK Hynix, Samsung Semiconductor und Micron Technology als auch die GPU von NVIDIA, die CPU von Intel und AMD sowie die Kapazitätserweiterung der Lieferkette rund um die Rechenzentren erfordern mehr Zeit.
Da die Nachfrage sprunghaft ansteigt, aber das Angebot relativ knapp ist, haben Personen aus den Bereichen Cloud-Computing, ICT-Hardware und Halbleiterindustrie gegenüber der "Caixin" mitgeteilt, dass der Trend der Knappheit und Preissteigerungen mindestens ein bis zwei Jahre andauern wird.
Diese Runde von Rechenleistungsknappheit ist jedoch nicht wie in der Vergangenheit eine einfache Supply-Chain-Krise. Sie ist eher ein Signal vor dem Start des KI-Industrie-Rades. Das Rad dreht einfach zu schnell, und die Zahnräder der Supply-Chain sind nicht vollständig ineinandergreifend, weshalb es zu Knappheit und Preissteigerungen kommt.
Das Vorhang auf für die globale Skalierung der KI-Industrie wird langsam geöffnet.
Generiert von GPT-5.5
01
Unprecedented Rechenleistungsnachfrage
Das Wachstum der Rechenleistungsnachfrage in dieser Runde ist beispiellos und übersteigt sogar die Entwicklung der letzten 20 Jahre.
Die internationale Markt-Forschungsinstitution Gartner führt eine langfristige Statistik und Prognose über die globalen IT-Ausgaben (einschließlich Rechenzentren, Geräten, Software, IT-Dienstleistungen, Kommunikationsdienstleistungen usw.) durch.
Die Daten von Gartner zeigen, dass das globale Investitionsvolumen in Rechenzentren im Jahr 2025 505,6 Milliarden US-Dollar (etwa 3,4 Billionen Yuan) erreichte, was einem Jahr-zu-Jahr-Anstieg von 51,6 % entspricht. Es wird prognostiziert, dass es im Jahr 2026 auf 788 Milliarden US-Dollar (etwa 5,4 Billionen Yuan) steigen wird, was einem Anstieg von 55,8 % gegenüber dem Vorjahr entspricht.
Die "Caixin" hat die von Gartner in den letzten 20 Jahren gesammelten Daten über die globalen IT-Ausgaben untersucht und festgestellt, dass das Investitionsvolumen und die Wachstumsrate in Rechenzentren in den Jahren 2025 - 2026 die höchsten seit 2006 sind.
Speziell bei den chinesischen und amerikanischen Technologie- und Rechenleistungskonzernen befinden sich ihre Kapitalausgaben in einer Phase des schnellen Ausbaus.
Die sieben chinesischen Technologie- und Rechenleistungskonzerne (Alibaba, ByteDance, Tencent, Baidu, China Mobile, China Unicom und China Telecom) haben im Jahr 2025 Kapitalausgaben von etwa 658,6 Milliarden Yuan getätigt, was einem Anstieg von 16 % gegenüber dem Vorjahr entspricht. Bei konservativer Schätzung werden die Kapitalausgaben im Jahr 2026 über 683,6 Milliarden Yuan liegen, was einem Anstieg von mindestens 4 % entspricht.
Die fünf amerikanischen Technologie- und Rechenleistungskonzerne (einschließlich Amazon, Microsoft, Google, Meta und Oracle) haben im Jahr 2025 Kapitalausgaben von 450 Milliarden US-Dollar (etwa 3,1 Billionen Yuan) getätigt, was einem Anstieg von 70 % gegenüber dem Vorjahr entspricht. Es wird prognostiziert, dass die Kapitalausgaben im Jahr 2026 760 Milliarden US-Dollar (etwa 5,2 Billionen Yuan) betragen werden, was einem Anstieg von 69 % entspricht.
Die zusammengefassten Rechenleistungsinvestitionen von fast 80 Milliarden US-Dollar der chinesischen und amerikanischen Technologie- und Rechenleistungskonzerne übersteigen sogar das Anlagevermögen vieler souveräner Staaten (einschließlich Deutschland, Großbritannien, Südkorea, Russland, Brasilien usw.) im Jahr 2025.
Der Ausbruch von Agenten treibt die Nachfrage nach Rechenleistung an. Dies hat dazu geführt, dass die Einnahmenwachstumsraten der globalen Haupt-Cloud-Anbieter (einschließlich Amazon AWS, Microsoft Azure, Google GCP, Alibaba Cloud und Oracle OCI) alle die Höchstwerte der letzten drei Jahre erreicht haben.
Die Haupt-Cloud-Anbieter betrachten Token sogar als den nächsten Kernwachstumsfaktor. Die Token-Einnahmen und der Anteil jeder Firma steigen auch schnell. Dies verändert sogar die Produktarchitektur und die Verkaufsstrategie des Cloud-Computings.
In den letzten zehn Jahren war die Einheit zur Messung der Rechenleistungsnachfrage immer die "Kartenstunde" (die Mietdauer von Chips in der Cloud), die Anzahl der Server und die Anzahl der Chips usw. Die Anbieter waren sich eher bewusst, wie viele Stunden CPU/GPU-Cloud-Ressourcen, wie viele CPU/GPU-Chips und wie viele Server verkauft wurden.
Mit dem Ausbruch von Agenten wird die Rechenleistung in Token, eine feinere, realzeitmessbare und kontinuierlich verbrauchende Ressourceneinheit, aufgeteilt. Das bisherige Modell des einmaligen Kaufs von Servern oder Cloud-Ressourcen beginnt sich in ein kontinuierliches Token-Verbrauchsmodell zu verwandeln.
Die Schwelle für die Benutzer, Rechenleistung zu nutzen, sinkt auch erheblich - KI geht von Chat- und Dialoganwendungen in die alltägliche Arbeit über. Der Token-Verbrauch von KI heute ist weit höher als der früherer KI-Dialogtools.
Xin Zhou, der Generalmanager der Plattform für große Modelle von Baidu Smart Cloud, hat im Dezember 2025 gegenüber der "Caixin" gesagt, dass Agenten eine Reihe von Aufgaben ausführen. Während des Aufgabenablaufs plant das Modell ständig Aufgaben mit Code, ruft Tools auf und protokolliert den Ausführungsstatus. Jeder Schritt kann möglicherweise einen neuen Modellaufruf auslösen. Ein Dialog kann nur Tausende von Token verbrauchen, aber eine Aufgabe kann Tausende oder sogar Hunderttausende von Token verbrauchen.
Die "Caixin" hat auf den beiden Plattformen Ark of Volcengine von ByteDance und Codex von OpenAI verschiedene Aufgaben getestet - der Token-Verbrauch bei alltäglichen Gesprächen liegt unter 1.000. Der Token-Verbrauch beim Lesen und Analysieren eines Artikels durch KI erreicht über 5.000. Der Token-Verbrauch bei der Analyse von PDF-Dateien der Quartalsberichte eines Unternehmens über 24 Quartale erreicht über 100.000. Der Token-Verbrauch bei der Erstellung einer kleinen Web-Anwendung für die Finanzanalyse eines Unternehmens erreicht eine Milliardenanzahl.
Das Wachstum des Token-Verbrauchs führt dazu, dass die Rechenleistung in China und den USA knapp ist - die Vertriebspersonen von Alibaba Cloud und Amazon AWS haben gegenüber der "Caixin" mitgeteilt, dass der Rechenleistungsmarkt im Jahr 2026 ein Verkäufermarkt ist. Es kann so viel Rechenleistung verkauft werden, wie es angeboten wird.
Am 13. Mai 2026 hat Wu Yongming, der CEO der Alibaba Group, in einer Earnings-Konferenz für das vierte Quartal des Geschäftsjahres 2026 (das erste Quartal 2026) diese Aussage indirekt bestätigt. Er sagte, dass derzeit keine einzige Karte in den Servern von Alibaba ungenutzt ist.
Das Wachstum des Token-Verbrauchs treibt auch das Wachstum der Token-Einnahmen der verschiedenen Technologie- oder Rechenleistungsunternehmen an. Obwohl der Anteil der Token-Einnahmen am Cloud-Geschäft der einzelnen Unternehmen nur einstellig ist, wächst er extrem schnell.
Die "Caixin" hat exklusiv erfahren, dass bis zum 13. Mai 2026 die täglichen Token-Einnahmen von Alibaba Cloud im Vergleich zum Anfang April um mehr als das 5-fache gestiegen sind. Der monatliche Umsatz erreicht derzeit das Niveau von Hunderten von Millionen Yuan. (Weitere Informationen finden Sie in der exklusiven Berichterstattung "Alibaba Cloud's tägliche Token-Einnahmen haben sich seit Anfang April vervielfacht".)
Das Alibaba-Management hat in einer Earnings-Konferenz nach den Ergebnissen des vierten Quartals des Geschäftsjahres 2026 mitgeteilt, dass die jährlichen wiederkehrenden Einnahmen (ARR, berechnet als Monatsumsatz × 12) von Modellen und Anwendungen, eins