StartseiteArtikel

Der Wettbewerb im MaaS-Bereich wird immer härter. Warum steigt die Marktanteil von Volcengine dennoch?

晓曦2026-05-08 12:13
Der AI-Cloud-Flugrad beginnt sich zu drehen.

Text | Su Tianming

Der chinesische MaaS (Model as a Service)-Markt erweitert sich rasant und entwickelt sich von einem sehr kleinen und engen Markt zu einem vielversprechenden Geschäftswachstumspunkt.

Die neuesten Daten der Marktforschungsinstitution IDC zeigen, dass die Anzahl der Aufrufe großer Modelle auf dem chinesischen unternehmensorientierten MaaS-Markt im Jahr 2025 im Vergleich zum Vorjahr um das 16-fache gestiegen ist und 1.941 Billionen Token erreicht hat. Es wird vorausgesagt, dass die Wachstumsrate 2026 noch höher sein wird.

Im Jahr 2025, insbesondere in der zweiten Jahreshälfte, sind fast alle chinesischen Cloud-Computing-Anbieter und Anbieter großer Modelle in den Markt eingetreten. Sie haben mehr Rechenleistung, Vertriebs- und Produktressourcen investiert, die Priorität der MaaS-Geschäftstätigkeit erhöht, und die Konkurrenz ist immer heftiger geworden.

Normalerweise wird in einem schnell expandierenden neuen Markt der Anteil der Marktführer leichter verdünnt, wenn Nachzügler in den Markt eintreten. Insbesondere auf einem Markt wie dem MaaS-Markt war man zunächst der Meinung, dass es schwierig sei, eine Bindung durch die API großer Modelle zu schaffen: Entwickler scheinen nur ein paar Codezeilen ändern zu müssen, um das zugrunde liegende Modell oder die Cloud-Plattform zu wechseln.

Aber die neuesten IDC-Daten liefern ein gegenintuitives Ergebnis: Im Jahr 2025 war der Marktanteil von Volcengine auf dem chinesischen MaaS-Markt sehr stabil und stieg von 49,2 % in der ersten Jahreshälfte auf 49,5 % für das ganze Jahr.

Das heißt, in der zweiten Jahreshälfte, in der die Konkurrenz am heftigsten war, wurde Volcengine nicht von Nachzüglern verdünnt, sondern hat seinen Vorsprung mit der Marktausweitung sogar weiter vergrößert. Auf jeder chinesischen öffentlichen Cloud werden von zwei generierten Token eines auf Volcengine ausgeführt.

Die Außenwelt hat dies oft auf eine aggressive Preisstrategie zurückgeführt. Im Mai 2024, als Volcengine den Doubao Large Model MaaS-Service eingeführt hat, hat es den Preis um 99,3 % gegenüber dem branchenüblichen Niveau gesenkt. Aber eine einfache Subvention kann die kontinuierliche Expansion des Marktanteils von Volcengine nicht erklären. Andere Anbieter in der Branche haben schnell auch die Preise für ihren MaaS-Service auf ein ähnliches Niveau gesenkt. Was wirklich entscheidet, ob ein niedriger Preis aufrechterhalten werden kann, ist die Aufrufmenge und die Fähigkeit der Inferenz-Engineering.

Die Modellfähigkeit ist ebenfalls von entscheidender Bedeutung. Die schnelle Expansion des MaaS-Markts kommt hauptsächlich von der Verbesserung der Modellfähigkeit, die neue Anwendungsfälle eröffnet: Die Verbesserung der Programmierfähigkeit von Modellen hat Vibe Coding und Agent populär gemacht, und Videoerzeugungsmodelle sind in den Produktionsprozess von Kurzfilmen, Animationsfilmen und Werbung eingegangen, was den Token-Verbrauch kontinuierlich erhöht.

Das bedeutet, dass der MaaS-Markt eher ein Wettlauf um die Geschwindigkeit im Wachstumsmarkt ist. Wer die Modellfähigkeit schneller in Produkte umsetzen und kostengünstige und stabile Dienste anbieten kann, kann schneller neue Anwendungsfälle übernehmen und seinen Marktanteil bei der Marktausweitung weiter vergrößern.

Von dem Doubao Large Language Model bis hin zum Seedance Video Generation Model usw. wird die Fähigkeit der Doubao-Serie von Modellen kontinuierlich verbessert. Auf dieser Grundlage beschleunigt Volcengine die Umwandlung der bisher akkumulierten Token-Menge in eine umfassendere Wettbewerbsfähigkeit: niedrigere Inferenzkosten, höhere Engineering-Effizienz und die Infrastruktur, die für den Betrieb von Agenten erforderlich ist. Ein Cloud-Computing-Flywheel für die Ära der großen Modelle wird gebildet.

01 Hinter den niedrigen Preisen stehen Skalierung und Engineering-Fähigkeiten

Der Cloud-Computing-Bereich ist ein typischer Sektor mit hohen Fixkosten und niedrigen Grenzkosten. Server, Netzwerke, Forschung und Entwicklung sowie das Betriebssystem erfordern große Vorinvestitionen, aber die Grenzkosten für jeden zusätzlichen Aufruf sinken. Je größer die Skalierung ist, desto leichter werden die Forschungs- und Infrastrukturinvestitionen verteilt.

Die Skalierung vergrößert auch den Wert der Engineering-Optimierung. Tan Dai, der Präsident von Volcengine, hat einmal ein Beispiel gegeben: "Die Optimierung eines Prozentpunkts der Serverauslastung von 10.000 Servern bringt einen 100-mal geringeren Nutzen als die Optimierung eines Prozentpunkts von 1 Million Servern. Man kann ein starkes Team zusammenstellen, um es noch besser zu machen."

Die Skalierung ist die wichtigste Variable, auf die Volcengine bei der Fokussierung auf den MaaS-Markt setzt: Es geht nicht einfach darum, Modell-Schnittstellen zu verkaufen, sondern darum, die Token-Aufrufmenge so schnell wie möglich zu erhöhen.

Dafür hat Volcengine den Token-Verbrauch als Kernkennzahl für die Geschäftsentwicklung festgelegt und die Leistungsevaluation der Vertriebsteams angepasst: Bei der internen Evaluation hat ein MaaS-Produkt mit demselben Umsatz ein mehrfaches Anreizgewicht im Vergleich zu traditionellen Cloud-Diensten.

Zusammen mit der Priorität der Geschäftstätigkeit hat Volcengine auch seine technologischen Investitionen in die Richtung der Modellinferenz erhöht. Die Kosten des MaaS hängen hauptsächlich von der Effizienz der Token-Generierung ab. Wenn die Serverauslastung, die Cache-Trefferquote und die Effizienz der Rechenleistungsscheduling verbessert werden, besteht die Möglichkeit, die Kosten zu senken.

"Niedrigere Kosten können mehr Anwendungen hervorbringen und den Markt erweitern." Tan Dai hat später über seine damalige Preisstrategie gesagt: "Als ich sah, dass wir die Kosten durch Technologie senken konnten, entschied ich mich, sie vollständig zu senken."

Die Schlüsseltechnologien, die Volcengine bei der Preissenkung unterstützten, waren hauptsächlich die frühzeitige und umfangreiche Anwendung der PD-Trennung und des KV-Cache. Die PD-Trennung besteht darin, das "Verstehen der Frage" (Prefill) und das "Generieren der Antwort" (Decode) bei der Inferenz großer Modelle zu trennen und jeweils geeignete Rechenleistungseinheiten zuzuweisen; der KV-Cache speichert den historischen Zustand während der Modellgenerierung, um die wiederholte Berechnung des vorherigen Kontexts bei der Ausgabe neuer Inhalte zu vermeiden und so den Grafikspeicher-Bandbreitennutz und die Inferenzkosten zu sparen.

Aber diese Technologien hängen von der Skalierung ab. Bei einer geringen Aufrufmenge haben die Wartung eines komplexen Caches und eines Schedulingsystems selbst Kosten, die sogar die eingesparten Rechenressourcen aufwiegen können.

Mit der Verbreitung von Technologien wie PD-Trennung und KV-Cache in der Branche nähern sich die Token-Preise in der Branche allmählich an. Nachzügler ohne Skaleneffekte haben bei der Anpassung an niedrige Preise oft größere Kostendruck und können sogar Verluste verursachen.

Volcengine mit einer größeren Aufrufmenge hat weniger Kostendruck und hat mehr Raum, um die Inferenztechnologie weiter zu optimieren und eine nachhaltige Fähigkeit, niedrige Preise zu bieten, zu entwickeln.

Volcengine sucht auch außerhalb der Technologie und des Engineerings nach Möglichkeiten, die Kosten zu senken: Einerseits bietet es differenzierte Preise basierend auf dem Context-Längenintervall an und gibt den Kunden die Wahlmöglichkeit; andererseits hat es ein "Sparprogramm" eingeführt, das die Verbrauchsmengen der Kunden bei verschiedenen Modellen wie Sprachmodellen und Videoerzeugungsmodellen zusammenrechnet. Die Skalenrabatte, die die Kunden bei Sprachmodellen angesammelt haben, können zur Absicherung der Fehlersuchkosten bei neuen Geschäften wie der Videoerzeugung verwendet werden.

Der neueste IDC-Bericht über den chinesischen MaaS-Markt erwähnt, dass Volcengine den höchsten Marktanteil, d. h. den Anteil an Aufrufen, hat; sein Umsatzanteil ist ebenfalls an erster Stelle, liegt aber einige Prozentpunkte hinter dem Anteil an Aufrufen. Der Preis pro Token von Volcengine ist niedriger als der Branchenmittelwert.

Es ist zu beachten, dass die IDC-Statistik über den chinesischen MaaS-Markt hauptsächlich die Unternehmensaufrufe von Modellen auf öffentlichen Clouds abdeckt und nicht die von ByteDance entwickelten KI-Anwendungen wie Doubao und Jimeng sowie die Token, die bei der Bereitstellung großer Modelle in internen Geschäften wie TikTok und Feishu entstehen.

Diese Aufrufmenge wird nicht in die IDC-Marktanteilsstatistik einbezogen, hat aber ebenfalls Auswirkungen auf die Kostenstruktur und die Engineering-Effizienz von Volcengine.

02 Agent macht den MaaS zu einem Infrastrukturgeschäft

Der CEO von OpenAI, Sam Altman, hat kürzlich in einem Interview gesagt, dass die nächste Phase der KI von "dem Benutzer, der einen Text vorgibt und das große Modell einen Text oder Code zurückgibt" zu "Agenten, die tatsächlich in Unternehmen laufen und verschiedene Arten von Aufgaben erledigen" übergehen wird. Er sagte, dass OpenAI auch mit AWS an einem Produkt ähnlich einem "virtuellen Kollegen" arbeite.

Der MaaS entwickelt sich von der standardisierten Bereitstellung von Modell-Schnittstellen zu einer Unternehmensinfrastruktur mit stärkerer Bindung. Damit ein Unternehmens-Agent tatsächlich funktioniert, werden Komponenten wie Identitätsverifizierung, Zugangskontrolle, Gedächtnissystem, Werkzeugaufruf, Sandbox-Umgebung, Protokollierung, Sicherheitsverwaltung sowie die Verbindung mit dem internen Unternehmenssystem benötigt.

Dies ist auch der Kerngrund, warum die Branche der großen Modelle in letzter Zeit Agent Harness gewürdigt hat. Der Begriff "Harness" bedeutet ursprünglich "Gespannt" oder "Sattelzeug". Im Kontext von Agenten bezieht es sich auf das Engineering-System, das mit dem Basis-Modell zusammenarbeitet. Der MaaS liefert eine stabile Modellfähigkeit, und das Harness ist für die Umwandlung der Inferenz in einen kontrollierbaren, nachverfolgbaren und nachhaltig lauffähigen Workflow verantwortlich.

Die Art und Weise, wie Cloud-Plattformen Dienstleistungen für große Modelle anbieten, ändert sich ebenfalls. Sowohl die Zusammenarbeit zwischen Anthropic und mehreren Cloud-Anbietern als auch die Zusammenarbeit zwischen OpenAI und AWS im April dieses Jahres bedeuten nicht nur, dass die Modell-Schnittstellen einfach auf die Cloud-Plattform gestellt werden, sondern auch, dass sie in die native Agent-Umgebung der Cloud-Plattform integriert werden, damit Unternehmen in der Cloud-Plattformumgebung produktionsreife Agenten entwickeln und betreiben können.

Die Produktentwicklung von Volcengine in den letzten Jahren kann auch in diesem Trend verstanden werden: Während die Wettbewerbsfähigkeit des MaaS verbessert wird, wird der Dienst für große Modelle zu einer Infrastruktur erweitert, die die Entwicklung und den Betrieb von Agenten abdeckt.

"Wir waren die ersten in China, die ein vollständiges Agent-Produkt eingeführt haben und die Agent-Entwicklung vereinfacht haben." Tan Dai hat im Dezember letzten Jahres in einem Interview gesagt, dass Kunden mit ein paar Codezeilen einen komplexen Agenten entwickeln können, "genauso wie Sie früher eine komplexe Website entwickelt haben", nur dass jetzt neue KI-Zwischensoftware erforderlich ist.

In seiner Einschätzung bestand das Schreiben von Code früher darin, if-else-Anweisungen zu schreiben, um Workflows zu definieren; bei der Entwicklung von Agenten auf der Grundlage von Modellen schreiben Entwickler jetzt eher Prompt-Wörter, und die Schritte wie die Prozessplanung, die Aufgabenaufteilung und die Erstellung von Sub-Agenten werden zunehmend vom Modell selbst übernommen. Dies ist auch die zugrunde liegende Arbeitslogik von Produkten wie OpenClaw.

Deshalb konnte Volcengine Anfang dieses Jahres während der Unterstützung der CCTV-Neujahrsfeier schnell das OpenClaw-Produkt ArkClaw einführen und die Sicherheitsfähigkeit verbessern. Gleichzeitig hat es die für die langfristige Erinnerung von Agenten entwickelte Kontext-Datenbank OpenViking open source gemacht, um ArkClaw noch nützlicher zu machen.

Sie haben die "ArkClaw-Privatversion" als "agiler Agent" definiert: Zunächst können die Mitarbeiter schnell Ideen zur Verbesserung der Geschäftseffizienz testen, und dann werden die validierten und effektiven Fähigkeiten zu "stabilen Agenten" festgelegt. Letztere entsprechen der Agent-Entwicklungs- und Betriebsplattform HiAgent, die Volcengine im Jahr 2024 eingeführt hat.

Bis April dieses Jahres ist die Anzahl der Unternehmen auf Volcengine, die insgesamt Billionen von Tokens verbraucht haben, von 100 Ende letzten Jahres auf 140 gestiegen. Immer mehr große MaaS-Kunden arbeiten enger mit Volcengine zusammen.

03 Das KI-Cloud-Flywheel beginnt sich zu drehen

In der Geschäftsanalyse ist der Flywheel-Effekt die Kernlogik, um den Erfolg der weltweit größten Cloud-Computing-Plattform AWS zu erklären: Die Skalierung verteilt die Kosten, die Preissenkung zieht mehr Kunden an, und das Wachstum der Kunden bringt mehr Feedback, Cashflow und eine stärkere Ökosystem, was die Weiterentwicklung der Technologie und der Dienstleistungen antreibt.

Volcengine baut in der Ära der KI ein ähnliches Flywheel auf. Aber sein Flywheel folgt nicht vollständig der Logik der traditionellen Cloud-Computing-Branche. Das Flywheel des traditionellen Cloud-Computings dreht sich hauptsächlich um Rechenleistung, Speicher, Netzwerke und die Software-Ökosystem; das Flywheel des MaaS hat zusätzlich die Modellfähigkeit, die Art der Token-Nutzung, die Agent-Szenarien und das Feedback aus realen Geschäften.

Die erste Ebene des Volcengine-Flywheels ist der Zyklus zwischen Modellfähigkeit, Aufrufmenge und Inferenzkosten.

Das interne Modell-Forschungsteam Seed von ByteDance liefert Volcengine stetig Modelle der ersten Liga. Je stärker das Modell ist, desto leichter kann die Aufrufmenge erweitert werden; je größer die Aufrufmenge ist, desto stärker kann die Kosten durch Engineering-Technologien gesenkt werden; nach der Kostenreduktion können wieder mehr Kunden angezogen werden. Dies ist ein Flywheel ähnlich dem traditionellen Cloud-Computing, nur dass die Maßeinheit von Servern, Speicher und Bandbreite zu Tokens gewechselt hat.

Die zweite Ebene des Flywheels kommt aus dem Feedback aus realen Szenarien. In der Byte-Ökosystem verwenden täglich Hundermillionen von Menschen Doubao, Jimeng wächst schnell, und es gibt auch Dutzende von internen Geschäftsbereichen wie TikTok und Feishu sowie externe Kunden, die alle über Volcengine die Fähigkeit großer Modelle entwickeln und nutzen. Sie geben Volcengine hochfrequentes, komplexes und reales Produktfeedback.

Dieses Feedback fließt einerseits in das Seed-Modellteam und hilft, das Basis-Modell weiter zu verbessern; andererseits fließt es in das Agent-Team von Volcengine und hilft, die Produktfähigkeit zu verbessern.

Das Agent-Produkt ist besonders von diesem Feedback abhängig. Anthropic hat in mehreren technischen Artikeln auch erwähnt, dass die Verbesserung der Agent-Fähigkeit nicht nur von der Verbesserung der Modellfähigkeit abhängt. Interne Mitarbeiter, externe Benutzer, Produktionsüberwachung, A/B-Tests, Benutzerforschung und Kundenbereitstellungsanforderungen tragen gemeinsam zur Weiterentwicklung von Produkten wie Claude Code bei.

Im Jahr 2025