Tokens sind nicht alles: Der Beginn des Wettbewerbs in der AI-Cloud

Kalte Überlegungen zum Token-Hype

Der Cloud-Markt war schon lange nicht mehr so lebhaft.

Die neuesten Daten von IDC zeigen, dass der Marktvolumen des öffentlichen Clouds in China im ersten Halbjahr 2025 auf 120,669 Milliarden Yuan gestiegen ist, was einem Jahreszuwachs von fast 20 % entspricht. Darunter betrug das Marktvolumen des MaaS 1,29 Milliarden Yuan, mit einem Jahreszuwachs von 421,2 %, was es zur am schnellsten wachsenden Nische im Cloud Computing-Sektor macht. Das Marktvolumen der Lösungen für große AI-Modelle belief sich auf 3,07 Milliarden Yuan, mit einem Jahreszuwachs von 122,1 %. Die Finanz-, Regierungs- und Fertigungsbranchen trugen über 60 % des Budgets bei. Es besteht kein Zweifel daran, dass KI eine zweite Entwicklungschance für Cloud Computing bietet.

Trotz der Lebhaftigkeit gibt es auch einige Aspekte, die uns zum Nachdenken anregen sollten.

Am Jahresende stellen die Unternehmen nacheinander ihre Bilanzen vor, und die Anzahl der Token-Aufrufe ist zum beliebtesten Indikator geworden. Täglich tauchen Zahlen in der Größenordnung von einigen Billionen im Bereich auf, was an die damalige Marktanteils-Kriegsähnlichkeit erinnert. Doch diejenigen, die mit der Cloud Computing-Branche vertraut sind, sollten sich daran erinnern, dass die Branche schon lange nicht mehr so stark auf den Marktanteil setzt. Nicht, weil er nicht wichtig ist, sondern weil man allmählich erkannt hat, dass in einem noch schnell expandierenden Markt der Marktanteil nur eine Momentaufnahme eines bestimmten Schnittes ist und nicht viel aussagt.

Heute wiederholt sich in gewisser Weise dieser Logik bei der Anzahl der Token-Aufrufe.

Wenn man die Zahlen vergleicht, wird es noch deutlicher: Das MaaS-Marktvolumen beträgt 1,29 Milliarden Yuan, während das gesamte öffentliche Cloud-Marktvolumen 120,6 Milliarden Yuan beträgt, was einem Anteil von gerade mal über 1 % entspricht. Wenn alle Aufmerksamkeit auf das Wachstum und den Rang dieses 1 % konzentriert ist, messen wir möglicherweise diesen Markt mit einem zu engen Maßstab.

Die Anzahl der Token-Aufrufe kann einige Dinge sagen, aber nicht alles. Der Wettbewerb im Cloud Computing findet auch nie nur auf der Anwendungs-Ebene statt. Daher ist die Einschätzung von Silicon Star People: Im Jahr 2026 wird der Wettbewerb im AI-Cloud schließlich auf die Infrastruktur zurückkehren und auf den Vergleich der Full-Stack-Fähigkeiten.

01 Token ist ein guter Indikator, aber nicht der einzige

Es gibt einen Grund, warum die Anzahl der Token-Aufrufe zum beliebtesten Indikator geworden ist. Sie ist intuitiv, quantifizierbar und einfach zu verbreiten. In einem Markt, der einen Schub braucht, haben Zahlen wie "tägliche Billionen" von Natur aus eine gewisse Wirkung. Für Anleger, Medien und sogar einige Kunden ist dies der am leichtesten verständliche Beweis für den KI-Wohlstand.

Aber die Probleme sind ebenfalls offensichtlich. Erstens bedeutet Anzahl nicht Qualität. Bei der gleichen Aufgabe, wenn ein Modell 10.000 Token benötigt, um sie zu erfüllen, und ein anderes nur 1.000, welches hat die stärkere Fähigkeit? Die Szenariodifferenzen sind ebenfalls enorm. Die Token, die für das Schreiben einer Marketing-Text verbraucht werden, die für die Rechnungsidentifizierung in der Finanzbranche, die beim Chatting auf der Konsumentenseite und die bei der Effizienzsteigerung auf der Produktionsseite entstehen, haben völlig unterschiedliche Bedeutungen.

Das Wichtigste ist, dass der API-Aufruf nur eine Art der Unternehmensnutzung von KI ist, und zwar die leichteste.

Aus der Sicht der Cloud-Service-Anbieter gibt es im Wesentlichen mehrere Wege für Unternehmen, KI zu nutzen: Direkter API-Aufruf, das Modell befindet sich in der Cloud und wird nach Verbrauch abgerechnet. Dies ist der Hauptansatz für die aktuelle Token-Statistik. Ein Schritt tiefer ist die Nachbearbeitung und Feinabstimmung in der Cloud. Unternehmen geben ihre eigenen Daten ein und trainieren ein auf ihre Geschäftsprozesse zugeschnittenes Modell. Noch tiefer ist der Download eines Open-Source-Modells und die lokale oder private Cloud-Bereitstellung. Die Daten bleiben im eigenen Rechenzentrum, und die Inferenz wird lokal durchgeführt. Es gibt auch noch speziellere Szenarien, wie z. B. die intelligente Fahrzeugführung und die Inferenz auf der Roboter-Seite. Das Modell läuft direkt auf dem Gerät, und die Reaktionszeit muss im Millisekundenbereich liegen. Es ist überhaupt nicht möglich, auf die Rückmeldung aus der Cloud zu warten.

Der von diesen Wegen verursachte Rechenleistungsbedarf ist ebenfalls immens, aber er wird in keiner öffentlichen Studie statistisch erfasst.

Nach Informationen von Silicon Star People beträgt die Überlappung zwischen den Kunden, die den API-Aufruf-Service nutzen, und denen, die GPU-Rechenleistung nutzen, auf Alibaba Cloud bis zu 70 %. Dies bedeutet, dass Unternehmen, die KI wirklich tiefgreifend nutzen, nie nur eine Methode wählen, sondern je nach Szenario verschiedene Dienstebenen auswählen: Für einige reicht der API-Aufruf, für andere müssen sie ihre eigenen Modelle trainieren. Wenn man nur den API-Aufruf betrachtet, sieht man nur den Teil des Eisesbergs, der über Wasser ragt.

Und unterhalb des Eisesbergs liegt das wahre Bild der Unternehmensumstellung auf KI: Es ist nicht einfach die Anbindung an eine API, sondern eine systemische Veränderung, die Daten, Prozesse und Organisation betrifft.

Dies kann nicht schnell gehen und auch nicht auf einmal erreicht werden. Kein Unternehmen denkt bei der Auswahl eines KI-Dienstes: "Du hast die meisten Token-Aufrufe, also wähle ich dich." Sie denken: "Kannst du mein Problem lösen?"

02 Die Kunden des AI-Clouds sind nicht nur Internet-Unternehmen

Welche Szenarien verbrauchen Token? Die Antwort auf diese Frage bestimmt, wie wir den aktuellen Zustand des AI-Cloud-Marktes verstehen.

Derzeit konzentriert sich die augenfälligste Blüte der aktuellen KI-Boomwelle in China auf die Konsumentenseite: ChatBot, Singen, Tanzen, KI-Gesichtswechsel, virtuelle Begleitung … Diese Anwendungen laufen hauptsächlich auf Mobiltelefonen, die Nutzerzahl wächst schnell, der Token-Verbrauch ist hoch, und die Daten sehen gut aus. Gleichzeitig ist die am schnellsten wachsende Kundengruppe im MaaS-Markt die von KI-nativen Unternehmen und Internet-Unternehmen. Sie sind von Natur aus die idealen Nutzer für den API-Aufruf: Ihr Geschäft ist online, die Daten liegen vor, die Entwicklungsfähigkeit ist stark, und sie können einfach über den API-Aufruf starten.

Aber dies ist nur ein Schnitt des KI-Marktes.

Der größere Raum liegt im Unternehmensmarkt und auf verschiedenen Endgeräten. Im Jahr 2025 begannen viele traditionelle Branchen, KI zu testen: Die Landwirtschaft und die Viehzucht nutzen KI zur Identifizierung der Viehzahl und zur Erkennung von abnormalen Verhaltensweisen. Im Bereich der Sicherheit werden multimodale Heimüberwachungen entwickelt, wie z. B. die Babyüberwachung, die Haustiererkennung und die Feuerwarnung. Die Schwerindustrie nutzt einen Reparaturassistenten, um die Ausbildung von Hochfachleuten zu verkürzen. Bildungskonzerne entwickeln ein intelligentes Korrektur-System, das nicht nur Multiple-Choice-Fragen, sondern auch subjektive Fragen bewerten kann. Logistikunternehmen stellen ihren Mitarbeitern vor Ort einen KI-Assistenten zur Verfügung, um alltägliche Anfragen zu bearbeiten. Diese Szenarien finden nicht nur auf Mobiltelefonen statt, sondern auch auf Fahrzeugen, Robotern, Industriegeräten und IoT-Endgeräten. Die Anforderungen an Echtzeitfähigkeit, Zuverlässigkeit und Datensicherheit sind weitaus höher als auf der Konsumentenseite.

Diese Unternehmen haben ein gemeinsames Merkmal: Sie sind nicht KI-nativ. Sie haben jahrzehntelang gesammelte Geschäftsdaten und Branchenkenntnisse. Sie brauchen nicht einfach nur einen API-Aufruf, sondern eine tiefe Integration von KI und ihren eigenen Daten und Prozessen. Viele Unternehmen haben noch nicht einmal die Digitalisierung abgeschlossen. Sie müssen zuerst die Datenverwaltung durchführen, dann die Nachbearbeitung und Feinabstimmung und schließlich die Anwendungsbereitstellung. Dies ist ein ganzes Paket an Dienstleistungen, das nicht mit einer API-Schnittstelle gelöst werden kann.

Darum wirken sich Open-Source-Modelle und Closed-Source-Modelle auf den Cloud-Markt unterschiedlich aus. Der Weg der Closed-Source-Modelle ist direkter: Die Kunden rufen die API auf und bezahlen nach Verbrauch. Die Einnahmenbestimmung ist klar, und die Wachstumskurve ist schön. Die Logik der Open-Source-Modelle ist anders. Die Kunden können es nach dem Download lokal bereitstellen, ihre eigene GPU-Cluster-Infrastruktur für die Inferenz nutzen oder die Nachbearbeitung in der Cloud durchführen, ohne den API-Aufruf zu nutzen. Diese Nutzungsverhaltensweisen treten ebenfalls auf, aber sie sind schwer zu statistisch erfassen. Die Förderung des Clouds durch Open-Source ist vorhanden, aber sie ist verteilter, versteckter und hat eine längere Periode.

Globale gesehen ist Alibaba Cloud eine besondere Existenz. Es ist eines der wenigen großen Cloud-Service-Anbieter, die gleichzeitig auf die Cloud Computing-Infrastruktur und die Open-Source-Modell-Ökosystem setzen.

Nach der Veröffentlichung des Qwen-Modell-Serien hat die globale Downloadzahl bereits über 800 Millionen erreicht. Aber wie viele dieser 800 Millionen Downloads haben sich in Einnahmen für Alibaba Cloud umgesetzt? Es ist schwer, dies direkt zu berechnen. Open-Source ist eine Ökosystem-Logik, nicht eine Transaktions-Logik.

Das Treiben auf der Konsumentenseite ist nur der Anfang. Die KI-Umstellung im Unternehmensmarkt ist der echte Kampf: Datenverwaltung, Prozessumgestaltung, Organisationsanpassung. Jeder Schritt ist nicht einfach. Der Übergang der gesamten Branche zu KI hat noch einen langen Weg vor sich.

03 Zurück zur Grundlogik des Cloud Computings

Nach all den Jahren der Entwicklung der Cloud Computing-Branche hat man das tiefste Gefühl: In der Cloud Computing-Branche gibt es keine Trickserei.

Jedes Datenbankprodukt wird bei der Einführung fast vollständig neu konstruiert, nachdem es von mehreren Dutzend Kunden getestet wurde. Jede Ebene der Dienstleistung wird durch harte Arbeit aufgebaut. Die Stabilität, Sicherheit und elastische Skalierbarkeit der Infrastruktur werden nicht durch Geschichten erzählt, sondern durch unzählige Fehlersitzungen, Leistungseinstellungen und Architekturanpassungen geschliffen. Diese Fähigkeiten haben keine Kurzschnitte und können nicht schnell erworben werden.

Egal, wie viel Vorstellungsraum KI dieser Branche bietet, die Grundlogik bleibt die gleiche: Wer eine solide Infrastruktur und eine vollständige Full-Stack-Fähigkeit hat, kann weiter gehen.

Der Wettbewerb im MaaS ist auch nie isoliert. Wenn ein Unternehmenskunde eine API eines großen Modells aufruft, passiert dahinter viel Komplexeres als nur "Anfrage - Antwort". Dahinter steckt die Fähigkeit der PaaS-Ebene: Wie werden die Daten gespeichert, verwaltet, in das Modell eingebracht und trainiert? Wie wird der Agent-Workflow aufgebaut? Weiter unten ist die Akkumulation der IaaS-Ebene: Chips, Server, Netzwerke, Speicher, GPU-Cluster-Scheduling. Eine ganze Infrastruktur steht dahinter. Wenn es an einer Stelle ein Problem gibt, wird das Gesamt-Erlebnis beeinträchtigt.

Darum wird die Full-Stack-Fähigkeit in der KI-Zeit noch wichtiger. In der Vergangenheit waren der Wettbewerb im Cloud Computing im Bereich IaaS, PaaS und SaaS relativ unabhängig. Die Kunden konnten die Schichten separat kaufen. Heute nutzen sie die Rechenleistung von Anbieter A, morgen wechseln sie zum Datenbankdienst von Anbieter B. Aber KI hat diese Logik geändert. Das Training von Modellen erfordert eine enorme Rechenleistung, die Inferenz erfordert ein Netzwerk mit geringer Latenz, und die Daten müssen unter sicheren und gesetzlichen Bedingungen fließen. Diese Schritte sind stark miteinander verbunden und schwer zu trennen. Wer am besten die Modell-Fähigkeit und die Infrastruktur-Fähigkeit kombinieren kann und die beste Kosteneffizienz erzielen kann, hat langfristig Wettbewerbsfähigkeit.

Im Jahr 2026, wenn mehr Unternehmen von der "Neugierde" zur "Tiefen Nutzung" übergehen und KI von der Konsumentenseite zur Produktionsseite geht, wird der Wettbewerb sicherlich auf die Full-Stack-Ebene zurückkehren.

Aber es ist noch zu früh, um zu sagen, wie sich dieser Wettbewerb entwickeln wird.

1996 besuchte der Präsident von Motorola China und prognostizierte, dass es bis 2000 ungefähr 1 Million Mobiltelefonnutzer in China geben würde. Tatsächlich hatte China 2000 über 100 Millionen Mobiltelefonnutzer, und einige Jahre später über 1 Milliarde. Und zu dieser Zeit war Motorola schon zurückgeblieben. Die Prognosen in der Technologie-Änderungsperiode unterschätzen oft die Explosivität des Marktes und überschätzen die kurzfristige Wettbewerbssituation.

Der MaaS-Markt macht gerade mal über 1 % des gesamten Cloud Computing-Marktes aus. Die KI-Penetration im chinesischen Unternehmensmarkt hat gerade erst begonnen. 99 % der Unternehmen sind noch nicht wirklich am Start.

Die Entwicklung des Cloud Computings ist immer ein langer Prozess gewesen, und es gibt keine Kurzschnitte. Temporäre Datenfluktuationen sind weder Grund für übermäßige Euphorie noch für übermäßige Sorge. Was wirklich wichtig ist, ist, wer sich auf die Aufbau der Infrastruktur konzentriert, wer sich ernsthaft um die Unternehmenskunden kümmert und wer sich auf den Wettbewerb in drei oder fünf Jahren vorbereitet.

Dieser Artikel stammt aus dem WeChat-Account "Silicon Star People Pro", Autor: Yoky, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Tokens sind nicht alles: Der Wettbewerb in der AI-Cloud hat erst gerade begonnen.

01 Token ist ein guter Indikator, aber nicht der einzige

02 Die Kunden des AI-Clouds sind nicht nur Internet-Unternehmen

03 Zurück zur Grundlogik des Cloud Computings