StartseiteArtikel

Die Geschäftsfelder, denen Zhu Xiaohu wenig Vertrauen entgegenbringt, verdienen still und leise im Ausland Geld.

阿菜cabbage2025-07-01 17:43
Die Annahme, dass Videomodelle nicht profitabel seien, ist ein kollektiver Fehlurteil der Anleger.

Text | Zhou Xinyu

Redaktion | Su Jianxun

Seit 2025 finden die weit verbreiteten Geschichten über das Reichtumswerden durch KI hauptsächlich in zwei Bereichen statt: Agenten, vertreten durch Manus, und KI-Hardware, vertreten durch Plaud.

Aber neben diesen spannenden KI-Anwendungsgeschichten in den Bereichen Agenten und Hardware bringt ein bereits abgekühlter alter Bereich - Videoerzeugungsmodelle - eine Gruppe chinesischer KI-Unternehmen auf die Reise:

Laut der Überwachung von Feifan Data erreichte im Juni 2025 der ARR (Annual Recurring Revenue) von Kuaishous Keling AI für App und Web bereits 100 Millionen US-Dollar. Bei den Start-ups erreichte der ARR von MiniMaxs Conch AI und Shengshu Technologies Vidu nur im Web-Bereich bereits etwa 10 Millionen US-Dollar.

Mehrere Insider haben der Zeitschrift "Intelligent Emergence" mitgeteilt, dass die tatsächlichen Abonnementeinnahmen dieser Produkte noch höher seien.

Selbst die Kassenflüsse, die bei den großen Sprachmodellen noch nicht positiv sind, haben im Bereich der Videoerzeugung bereits das Plus erreicht.

Das chinesische Unternehmen Aishi Technology hat offiziell mitgeteilt, dass die Abonnementeinnahmen seines Videoerzeugungsmodells PixVerse bereits den Großteil der Unternehmenskosten decken können und die Kassenflüsse nahezu positiv sind.

Bei der Zhiyuan-Konferenz 2025 hat Huang Weilin, der Leiter von ByteDance Seed für Bild- und Videoerzeugung, eine optimistische Einschätzung abgegeben: Der jährliche Umsatz (ARR) der führenden Videoerzeugungsprodukte wird voraussichtlich in diesem Jahr 100 Millionen US-Dollar erreichen und könnte im nächsten Jahr auf 500 bis 1 Milliarden US-Dollar steigen.

Aber erst vor einem Jahr waren Sora-ähnliche Videoerzeugungsmodelle in China noch in schlechter Reputation. Der Grund dafür ist, dass Video-Großmodelle zu teuer sind und die Einnahmen unsicher sind, sodass es für gewöhnliche Unternehmen nicht lohnend ist, in diesen Bereich einzusteigen.

Tencent Technology hat berichtet, dass Wang Changhu, der ehemalige Leiter der visuellen Technologie bei ByteDance, als er Aishi Technology gründete, von Zhu Xiaohu von Jinshajiang Venture Capital abgeraten wurde: "Du solltest besser zurück zur Arbeit gehen. Große Modelle haben in China keine Chance." Im September 2024 wurde auch MiniMax, als es in der Mitte zwischen Kuaishou und ByteDance sein Videoerzeugungsmodell Conch AI veröffentlichte, von den Märkten negativ beurteilt.

Ein Investor, der einst die Investition in Wang Changhu abgelehnt hat, hat eine damalige Konsensmeinung ausgesprochen: Der ROI von Video-Modellen kann in kurzer Zeit nicht positiv werden, und Start-ups werden wie im Bereich der Sprachmodelle von zwei oder drei großen Unternehmen verdrängt werden.

Tatsächlich waren im Jahr 2024 viele chinesische Video-Start-ups am Abgrund: Schwierigkeiten bei der Finanzierung und das Fehlen eines passenden Produkt-Market-Fit. Beispielsweise wurde das AI-Video-Start-up Luying Technology, das von Redpoint China und BlueRun Ventures finanziert wurde, im Dezember 2024 übernommen.

Jedoch hat der Umsatz von Aishi Technology in weniger als einem Jahr die Meinung dieses Investors geändert. Er sagte der Zeitschrift "Intelligent Emergence", dass er "ihn bitter bereue": "Die Annahme, dass Video-Modelle nicht profitabel sind, war ein kollektiver Fehlschluss der Investoren."

Mit realen Geldern widerlegt diese chinesischen KI-Video-Unternehmen die öffentliche Meinung. Die Erfolgsfaktoren dieser chinesischen KI-Video-Unternehmen lassen sich auf drei Faktoren zusammenfassen: Bereich, Markt und Marketing.

Schauen wir uns zunächst den Bereich an.

Es hat sich gezeigt, dass die Verbraucher auch dann noch toleranter sind, wenn die Videoerzeugungstechnologie noch in einem früheren Stadium ist als die Sprachverarbeitung. Der Grund dafür ist, dass der Bereich der Videoerzeugung ein Bereich ist, in dem die Nachfrage durch ästhetische Ansprüche angetrieben wird.

"Unterschiedliche Datenstrategien der Unternehmen, unausgereifte Technologien und Abweichungen bei den Trainingsdaten führen zu unterschiedlichen Stilen der Videoerzeugung", sagte uns ein Investor. "Der Videokreationsmarkt ist ein Markt mit vielfältigen ästhetischen Vorlieben, und jedes Video-Modell hat seine eigenen Verbraucher."

Beispielsweise haben viele Benutzer festgestellt, dass Kuaishous Keling AI besonders gut darin ist, Videos über Essen und Food-Streaming zu erstellen. Dies wird auch mit den reichhaltigen Food-Streaming-Videos auf Kuaishou in Verbindung gebracht.

Was den Markt angeht - der Ausstieg in ausländische Märkte ist in der KI-Branche schon lange ein etabliertes Konzept, insbesondere in den westlichen Märkten, wo die Nutzer eine höhere Zahlungsbereitschaft haben und sich schneller für neue Produkte interessieren.

Beispielsweise wurde MiniMaxs Conch AI in China wegen der Einführung einer Abonnementgebühr von den Kreatoren kritisiert, hat aber im Ausland sechs Mal so viele Nutzer und einen ARR von mehreren Millionen US-Dollar erreicht.

Aber neben den Vorteilen des ausländischen Marktes selbst ist auch die "Kosteneffizienz" der chinesischen Video-Modelle im Ausland bemerkenswert.

Viele Branchenmitglieder glauben, dass die begrenzten finanziellen Mittel und Rechenkapazitäten die chinesischen KI-Video-Start-ups gezwungen haben, viel Zeit und Mühe in die Kostensenkung zu investieren, was ihnen im Ausland einen Kostenvorteil verschafft.

Beispielsweise kosten Modelle wie Conch AI und Vidu von Start-ups nur ein Zehntel bis ein Sechstel so viel wie Sora, wenn sie Videos gleicher Länge und Auflösung erstellen.

Grafik von "Intelligent Emergence".

Schließlich schauen wir uns das Marketing an.

Man kann feststellen, dass Video-Social-Media-Plattformen wie TikTok und YouTube eine entscheidende Rolle in der Wachstumsstrategie der KI-Video-Unternehmen spielen.

Ein Mitarbeiter von Aishi Technology hat der Zeitschrift "Intelligent Emergence" mitgeteilt, dass ein wichtiger Wendepunkt für das Wachstum seines Video-Modells PixVerse Ende 2024 war, als die Gesamtansichten der Venom-Effekte auf TikTok und Douyin mehr als 100 Millionen erreichten. Ein Investor hat auch erwähnt, dass die "Pinch"-Effekte von Pika und die "Half-Cat"-Funktion von Conch AI die Wachstumsimpulse waren.

△ Pikas "Pinch"-Effekt. Quelle: Offizielle Pika-Redis Seite

"Für die heutigen Modellunternehmen reicht es nicht mehr, nur auf den Technologielisten gut zu platzieren", fasste der oben genannte Investor zusammen. "Man muss aktiv nach skalierten Bedürfnissen suchen und sogar schaffen."

Für den Videokreationsbereich besteht der Bedarf der Kreatoren nicht nur darin, die Produktivität zu steigern, sondern auch an Anreizen wie Traffic zu gelangen. "Die erfolgreichen Funktionen, die von KI-Video-Unternehmen geschaffen werden, erfüllen tatsächlich den Bedarf der Kreatoren nach Anreizen."

Eine gute Nachricht für die Unternehmer ist: Laut der von a16z veröffentlichten Rangliste belegte Conch AI im Januar 2025 Platz 12, vor OpenAIs Sora (Platz 23) und Kuaishous Keling AI (Platz 20) in Bezug auf die Nutzerzugriffe.

Das bedeutet, dass der Bereich der Videoerzeugung noch nicht von Oligopolen dominiert wird wie der Bereich der Sprachmodelle, und es gibt immer noch viele Chancen für Start-ups.

Wang Changhu hat der Zeitschrift "Intelligent Emergence" gesagt, dass der Bereich der Videoerzeugung trotz des schnellen Wachstums noch im Stadium zwischen GPT-2 und GPT-3 stehe. In diesem Stadium gibt es noch viele technische Herausforderungen zu bewältigen, was eine Chance für Start-ups sei.

Aber während man versucht, die Methode des Eigenfinanzierens zu replizieren, muss man auch bedenken, dass die Einstiegsvorteile im Bereich der Videoerzeugung allmählich schwinden. Und die bestehenden Video-Modellunternehmen werden immer größere Druck haben, im Spiel zu bleiben.

Im März 2024 hat Wang Changhu in einem Medieninterview beurteilt, dass es für die künftigen Start-ups, die in diesen Bereich eintreten, schwierig sei, Chancen zu haben. Der Grund sei: "Wenn man in der ersten Phase nicht genug Kapital erhalten hat und keine Akkumulation von Nutzern, Team und Technologie hat, hat man möglicherweise nicht genug Ressourcen, um im Spiel zu bleiben."

Eine KI-Investorin hat dies indirekt bestätigt. Sie sagte der Zeitschrift "Intelligent Emergence", dass es auch wenn die Situation im Bereich der Videoerzeugung noch nicht feststehe, schwierig sei, neue Spieler zu finanzieren. "Es sei nur möglich, wenn ein Unternehmen wie DeepSeek ein Überraschungserfolg wird."

Zugleich hat sie auch darauf hingewiesen, dass die Finanzierungsbeträge, die Video-Unternehmen erhalten können, um eine Größenordnung geringer seien als die von Sprachmodellunternehmen. "Mit der Zeit wird der Ressourcenmangel der Start-ups immer deutlicher werden", fasste sie zusammen. "Keling AI und Jimeng AI haben einen Vorteil bei der kontinuierlichen technologischen Iteration."

Diese harte Realität zwingt die derzeitigen KI-Video-Start-ups, den Schritt zur Eigenfinanzierung zu beschleunigen.

Willkommen zum Austausch 👏