Exklusiv-Interview mit Tan Dai von Volcano Engine: Ein gutes Modell - Der Schlüssel für MaaS, Doubao 2.1 bringt dich an den Tisch!

Wie kann das MaaS-Geschäft dauerhaft erfolgreich sein?

Text | Deng Yongyi

Redaktion | Zhang Yuxin

Tan Dai, Präsident von Volcengine. Quelle: Volcengine

In den letzten drei Jahren hat Tan Dai, Präsident von Volcengine, das Einnahmeziel für MaaS (Model as a Service) für das Team dreimal festgelegt: Anfang des Jahres wird ein sehr hohes Ziel gesetzt, und das Team findet es zu schwierig und unerreichbar. Mitte des Jahres stellt man fest, dass "es fast erreicht ist", und dann wird das Ziel erneut angehoben.

Anfang 2026 hat das Videomodell Seedance 2.0 von ByteDance Volcengine zu einem erfolgreichen Start verholfen. Als Späterkommer in der Cloud-Markt ist Volcengine mit dem Wind der KI zu einem unerwarteten Wachstum gekommen.

"Ich habe vor zwei Jahren gesagt, dass MaaS ein großer Geschäftszweig ist, aber damals glaubten Sie mir nicht", sagte Tan Dai gegenüber 36Kr.

Ab dem zweiten Halbjahr 2025 haben das Coding- und das Videomodell nacheinander die Szenarien für die kommerzielle Produktion freigeschaltet. Dadurch hat man festgestellt, dass die Grenzen der Fähigkeiten der Modelle derzeit noch schwer vorherzusagen sind. Spitzenmodelle sind derzeit der wichtigste Wachstumsmotor für MaaS-Services, wenn nicht sogar der einzige.

Bei der Volcengine Force-Konferenz am 23. Juni ist das neue Flaggschiffmodell von ByteDance, das Doubao-Großmodell 2.1 Pro, aufgetaucht. Dies bedeutet, dass ByteDance neben der Videogenerierung endlich das Coding-Puzzle auf der Modelseite ergänzt hat.

Tan Dai definiert das Doubao-Großmodell 2.1 Pro so, dass es in Bezug auf die Coding- und Agent-Fähigkeiten "endlich am Tisch ist". Im renommierten Programmier-Test Terminal Bench kann das Doubao-Großmodell 2.1 Pro bereits mit Claude Opus 4.7 konkurrieren und zeigt in Langzeit- und komplexen Aufgaben eine gute Leistung und erreicht die Einsatztürschwelle.

Quelle: Volcengine

Dies ist der Markt, der Volcengine am meisten interessiert. Der Fortschritt bei den Coding/Agent-Fähigkeiten bedeutet, dass die Modelle in die Kernproduktionsprozesse von mehr Unternehmen und Einzelpersonen eindringen können. Mit anderen Worten, sie können auch mehr kommerziellen Wert schaffen.

Außer dem Flaggschiffmodell hat Volcengine auch eine Reihe von Modell-Updates gebracht, darunter die 4K-Version von Seedance 2.0, das Bildgenerierungsmodell Seedream 5.0, das Doubao-Sprachegenerierungsmodell 1.0 und das noch im Juli veröffentlichte Seedance 2.5.

"Das Videogenerierungsmodell ist eigentlich eine Implementierungsmöglichkeit des Weltmodells. Und bisher scheint es sich um ein relativ reifes technisches Konzept zu handeln, das sich auf unüberwachte Weise massiv erweitern lässt", sagte Tan Dai. Das Seedance-Modell zeigt eine präzise Wiedergabe und ein Verständnis der physischen Welt, was die Synthese hochwertiger visueller Daten möglicher macht und die Forschung in Bereichen wie Embodied AI und Fahrerlosem Fahren beschleunigt.

Als wir Tan Dai 2024 interviewten, befand er, dass die Großmodelle erst im "Handy-Ära" angelangt seien. Zwei Jahre später befinden wir uns bereits in der Ära der Funktionstelefone - die Großmodelle sind nicht mehr das Spielzeug einer Minderheit, sondern haben tatsächlich in das Leben und die Arbeit von mehr Menschen Eingang gefunden.

Derzeit hat Volcengine in der MaaS-Markt bereits eine führende Position erreicht. Die neuesten Daten zeigen, dass der tägliche Token-Verbrauch von Volcengine im Vergleich zum Ende 2025 um 50 % gestiegen ist und auf 180 Billionen liegt, was einem Anstieg von über 1.500 % gegenüber vor zwei Jahren entspricht. Die Anzahl der Kunden im "Trillionen-Club" (Kunden mit einem kumulierten Token-Verbrauch von über einer Billion) hat sich ebenfalls verdoppelt und beträgt jetzt über 200.

Quelle: Volcengine

Tan Dai sagte, dass mit den neu veröffentlichten Modellen und den eventuell noch in diesem Jahr veröffentlichten Modellen das Einnahmeziel von Volcengine für dieses Jahr angehoben wurde.

Hinter diesem liegt eine Änderung der Preislogik der Modelle. 2024 war Volcengine einer der ersten Anbieter, der die Preise für Großmodelle auf das "Bodenlevel" senkte. Auf dieser Konferenz wurde jedoch nicht mehr darauf eingegangen.

"2024 haben wir die Preise gesenkt, weil damals alle Modelle nur Chatbots waren und den Preis wert waren", sagte er gegenüber 36Kr. Heute können die Modelle jedoch in die Kernproduktionsprozesse eindringen.

Dies führt zu einer größeren Frage: Was wird die KI für Veränderungen in der Cloud-Branche bringen, wenn die Großmodelle tatsächlich in die Kernproduktionsprozesse mehrerer Branchen eindringen?

Ende 2024 wurde Tan Dai gefragt: Wenn man mit dem Verkauf von APIs Geld verdienen kann, warum sollte man dann noch Cloud-Dienste anbieten? Letztere galten einst als ein guter Geschäftszweig, aber nach mehr als zehn Jahren Entwicklung ist der chinesische Markt bereits zu einem Riesenwettbewerb geworden.

Nach Ansicht von Tan Dai ist diese Frage überhaupt nicht zutreffend. MaaS und Cloud stehen nie in einem Gegensatzzusammenhang - die zukünftige Cloud wird eher Agenten nutzen, um IaaS, PaaS und SaaS zu steuern. Die traditionelle Cloud wird nicht verschwinden, sondern Teil der KI-Cloud werden. "Die neuen Workloads, die auf Modellen und Agenten basieren, könnten das Zehn- oder Zwanzigfache der traditionellen Cloud betragen."

Tan Dai widersprach auch der Meinung, dass MaaS-Services keine Kundenbindung hätten. "Auch in der Frühzeit der Cloud-Computing gab es keine Bindung, wenn man nur Server verkaufte", sagte er. "Derzeit nutzen die Menschen die KI noch relativ oberflächlich. Wenn die Modelle tatsächlich in das Kernproduktionssystem eines Unternehmens integriert werden, wird die Kopplung stärker."

Es ist offensichtlich, dass sowohl Volcengine als auch andere Cloud-Anbieter die KI als den wichtigsten, wenn nicht sogar den einzigen Wachstumsmotor betrachten. Tan Dai findet dies selbstverständlich: "Wenn Sie in das Jahr 2012 zurückkehren, als ByteDance gegründet wurde, würden Sie damals einen PC-Suchdienst aufbauen?"

Die Frage, die Volcengine nun bevorsteht, lautet: Wie kann man in der MaaS-Markt immer gewinnen?

Tan Dai hat dazu noch keine vollständige Antwort, aber eines ist sicher und am schwierigsten: Das Modell muss langfristig führend bleiben.

I. Die Modelle sind endlich wirklich in die Kernproduktionsprozesse eingedrungen

36Kr: Woher stammt die Kernantriebskraft für das schnelle Wachstum von Volcengine im vergangenen Jahr?

Tan Dai: Im Wesentlichen liegt es daran, dass die Modelle die echten produktionsreifen Szenarien freigeschaltet und in die Kernproduktionsprozesse eingedrungen sind. Je herausfordernder und wertvoller die Produktivitätsszenarien oder -prozesse sind, desto größer ist der Wert, der nach der Freischaltung entsteht.

Eine Hauptlinie ist die Videogenerierung. Seedance ist das weltweit erste Modell, das die kommerzielle Produktionsszenarien wirklich freigeschaltet hat.

Die andere Hauptlinie ist LLM/Agent. Die produktionsreife Freischaltung wurde nach der Veröffentlichung von Claude Opus 4.6 im vergangenen Jahr erreicht. Cursor hat eine Analyse durchgeführt: Das Verhältnis zwischen dem automatischen Abschluss von Code durch Agenten und dem Tab-Vervollständigen von Code war vor der Veröffentlichung von Claude Opus 4.6 höher für das Tab-Vervollständigen. Danach hat sich dies umgekehrt. Dies zeigt, dass die Fähigkeiten des Modells nach 4.6 stark verbessert wurden und es tatsächlich in produktionsreifen Coding- und Agent-Szenarien eingesetzt werden kann.

36Kr: Wie kann man feststellen, dass Seedance 2.0 wirklich die kommerzielle Produktion erreicht hat?

Tan Dai: Vor der Veröffentlichung von Seedance 2.0 wurden die meisten Videomodelle zur Produktion von UGC- und PGC-Entertainmentvideos verwendet und waren nur schwer in ernsten kreativen Szenarien wie Filmen, Fernsehserien und Werbung einsetzbar.

Auch aus der Nutzungsmenge der Benutzer können wir diese Veränderung erkennen: Früher war die Nutzungsmenge der Videogenerierungsmodelle am Wochenende höher als an Wochentagen, ähnlich wie bei vielen Entertainmentprodukten für Endverbraucher. Aber nach der Veröffentlichung von Seedance 2.0 ist dies nicht mehr der Fall. Die Belastung an Wochentagen ist mehr als doppelt so hoch wie am Wochenende, was zeigt, dass die Leute es wirklich in der Arbeit verwenden.

Die Videogenerierung ist auch einer der Wege zum Weltmodell und hat ein großes Anwendungspotenzial in der realen Wirtschaft. Seedance wurde bereits in Bereichen wie Embodied AI, industrieller Fertigung und Fahrerlosem Fahren eingesetzt und bietet neue Werkzeugfähigkeiten für die Daten-Synthese, Szenariosimulation und Prozessdemonstration.

36Kr: Hatten Sie im Vorfeld der Veröffentlichung von Seedance 2.0 erwartet, dass es ein großer Erfolg werden würde?

Tan Dai: Ich würde es nicht als großen Erfolg bezeichnen. Wir hatten eigentlich ein noch aggressiveres Ziel festgelegt, aber es scheint, dass es schwierig zu erreichen ist.

36Kr: Warum kann Seedance 2.0 so gute Ergebnisse erzielen?

Tan Dai: Es ist die Darstellung unserer umfassenden Fähigkeiten. Um die Videogenerierung gut zu machen, benötigt man ein gutes Sprachmodell als Grundlage, und die Fähigkeiten der Bildgenerierung und des VLM (Video-Verständnis-Modells) müssen auch stark genug sein.

Die gute Leistung von Seedance 2.0 kann auf die Fähigkeiten von Doubao zurückgeführt werden. Dies ist ein wichtiger Vorteil gegenüber reinen Videomodel-Anbietern.

Ein weiterer Punkt ist, dass der Inhaltserstellungssektor in China weltweit sehr aktiv ist. Dass China das beste Videomodell zuerst entwickelt hat, hängt damit zusammen.

36Kr: Einige Marktmeinungen meinen, dass der Kampf im Bereich der Videogenerierung bereits beendet ist und ByteDance eine dominante Position innehat. Was halten Sie davon?

Tan Dai: Wir sind noch nicht an diesem Punkt angekommen. Die Penetration der KI in der Videogenerierung ist in der Tat noch sehr gering.

Derzeit wird zu viel auf die kurzfristigen Einnahmen von Seedance geachtet, und der technische Wert von Seedance wird vernachlässigt. Die Videogenerierung ist ein relativ reifes technisches Konzept, das sich auf unüberwachte Weise massiv erweitern lässt. Das Seedance-Modell zeigt eine präzise Wiedergabe und ein Verständnis der physischen Welt, was die Synthese hochwertiger visueller Daten möglicher macht und die Forschung in Bereichen wie Embodied AI und Fahrerlosem Fahren beschleunigt. Es hat ein sehr großes Anwendungspotenzial in der realen Wirtschaft.

Und wenn die KI tatsächlich Wert schafft, soll sie nicht die Vergangenheit ersetzen, sondern die Branche insgesamt vergrößern.

36Kr: Auf dieser Force-Konferenz haben Sie auch ein neues Flaggschiffmodell, das Doubao-Großmodell 2.1, veröffentlicht. Wie definieren Sie dieses Modell?

Tan Dai: Ich denke, das Doubao-Großmodell 2.1 Pro hat das Niveau erreicht, um eingesetzt zu werden. Es kann mit Claude Opus 4.6 konkurrieren und hat die Einsatztürschwelle für Agenten erreicht.

Das Doubao-Großmodell 2.1 markiert auch, dass wir in der Coding-Branche endlich am Tisch sind. Dies ist sehr wichtig, denn es gibt noch nicht viele in China, die dies erreicht haben.

36Kr: Wie definieren Sie "eingesetzt werden können"?

Tan Dai: Es gibt mehrere Merkmale:

Erstens, eine starke Coding-Fähigkeit. In der digitalen Welt bedeutet eine starke Coding-Fähigkeit, dass man Skripte und Werkzeuge flexibel aufrufen kann und auch eine starke Generalisierungsfähigkeit hat.

Zweitens, die Fähigkeit, komplexe allgemeine Agentenaufgaben zu erledigen. Dies bedeutet, dass man Werkzeuge besser aufrufen kann, über Langzeitaufgabenfähigkeiten verfügt, gut mit dem Gedächtnis kombiniert werden kann, verschiedenen Harnesses und Frameworks angepasst werden kann und auch über eine gute VLM-Fähigkeit verfügt - viele Eingaben müssen über die visuelle Verarbeitung erfolgen, wie z. B. Computer Use.

Drittens, die Fähigkeit zur skalierbaren Anwendung. Wenn das Modell zwar gut ist, aber zu teuer ist, geht es nicht. Wenn die Latenz zu hoch ist, z. B. eine Throughput (Durchsatz) von über 20 Millisekunden, geht es auch nicht. Das Modell muss auch in der Lage sein, eine größere Anzahl von Diensten zu unterstützen.

Das Doubao-Großmodell 2.1 hat in diesen Bereichen sehr gute Ergebnisse erzielt. Im Vergleich zu Claude Opus 4.6 kann es sogar die Coding-Fähigkeit übertreffen. Bei der skalierbaren Anwendung wird das neu veröffentlichte Task-Modus in der Doubao-App mit dem Doubao-Großmodell 2.1 realisiert.

36Kr: Wann denken Sie, dass die chinesischen Modelle in der Coding-Szene wirklich aufgeholt haben?

Tan Dai: Wahrscheinlich im zweiten Quartal dieses Jahres. Viele Modelle haben in der Vergangenheit gesagt, dass sie mit anderen konkurrieren können, aber das reicht nicht. Wenn Sie wirklich aufgeholt oder sogar übertroffen haben, werden die Leute Ihnen bezahlen. Man kann anhand des ARR feststellen, ob Sie es tatsächlich geschafft haben.

36Kr: Warum ist die Entwicklung in der Coding-Szene in China im Vergleich zur Videogenerierung insgesamt langsamer?

Tan Dai: Erstens ist der Wettbewerb im Bereich der LLM

Dieser Artikel wurde ursprünglich von「咏仪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Exklusiv-Interview mit Tan Dai von Volcano Engine: Ein gutes Modell ist das Wichtigste für MaaS – mit Doubao 2.1 ist man nun „am Tisch“

I. Die Modelle sind endlich wirklich in die Kernproduktionsprozesse eingedrungen