Drei Brüder aus Tsinghua-Universität beschaffen erneut 600 Millionen Yuan an Kapital

Im Bereich der KI-basierten Videogenerierung taucht erneut ein unerwarteter Sieger auf.

Im Bereich der AI-Videoerzeugung ist ein neues Starunternehmen aufgetaucht.

Kürzlich hat das weniger als 3 Jahre alte Shengshu Technology eine Serie-A+-Finanzierung von über 600 Millionen Yuan abgeschlossen, was die größte Einzel-Finanzierung im Bereich der Videoerzeugung in China darstellt.

Wir beklagen oft, dass die Videoerstellung sehr mühsam ist: Der Lernaufwand ist hoch, es dauert lange und es kostet viel. Tatsächlich fehlt uns ein effizientes intelligentes Erstellungstool. Shengshu Technology gibt den Videoerstellern ein künstliches Intelligenz-Gehirn und -Hände, sodass Ideen automatisch in Videos umgewandelt werden können.

Shengshu Technology hat bisher eine Reihe von Kunden wie ByteDance, Sony und Anta bedient.

Seit der zweiten Jahreshälfte des vergangenen Jahres hat der Bereich der AI-Videoerzeugung eine Welle von Finanzierungen erlebt. Wird es der erste AI-Sonderbereich sein, in dem ein Geschäftsmodell erfolgreich umgesetzt wird?

01 Probleme bei Video-Großmodellen

Shengshu Technology wurde im März 2023 in Peking gegründet. Die drei Mitbegründer, Zhu Jun, Tang Jiayu und Bao Fan, haben alle einen Hintergrund an der Tsinghua-Universität.

Zhu Jun wurde 1983 in Funan, Anhui, geboren. Er absolvierte sein Studium an der Fakultät für Informatik der Tsinghua-Universität. Später war er der stellvertretende Direktor des Instituts für Künstliche Intelligenz der Tsinghua-Universität. Er hat lange Zeit an der Bildgenerierung geforscht, insbesondere an der neuen Generation von Kerntechnologien - dem Diffusionsmodell.

Tang Jiayu absolvierte sein Bachelor- und Masterstudium an der Fakultät für Informatik der Tsinghua-Universität und war Schüler des Labors für natürliche Sprachverarbeitung. Nach Abschluss seines Masterstudiums trat er als Senior-Produktmanager in das Tencent YouTu-Labor ein und war später stellvertretender Direktor von RealAI, einem Anbieter von AI-Infrastruktur.

Bao Fan gehört zur Generation der "Post-95". Er begann 2014 sein Bachelorstudium an der Fakultät für Biowissenschaften der Tsinghua-Universität und wechselte zwei Jahre später in die Fakultät für Informatik. Er absolvierte 2019 sein Bachelorstudium an der Fakultät für Informatik und erhielt später einen Doktortitel an der gleichen Universität. Er ist ein Schüler von Zhu Jun.

Im Jahr 2022 lag der Fokus der Branche noch auf Großmodellen für Bilder und Texte. Zhu Jun beurteilte, dass der nächste Durchbruch in der Videoerzeugung liegen würde. Er beschloss, ein Video-Großmodell für praktische Anwendungen zu entwickeln.

Aus den obigen Lebensläufen kann man erkennen, dass dieses Team mit Tsinghua-Professoren und -Studenten als Kern eine lange Erfahrung in der Videoerzeugungsalgorithmen und der unteren Ebenenentwicklung hat.

Schon im September 2022 hat dieses Team die U-ViT-Technologiearchitektur vorgeschlagen. Sie kann zur Erzeugung von hochwertigen Bildern und Videos verwendet werden. Sie kann auch 3D-Inhalte erzeugen und sogar zur Erstellung von Weltmodellen eingesetzt werden.

Im Jahr 2023 wurde Shengshu Technology gegründet und von RealAI mitgegründet. Es erhielt schnell eine Angel-Finanzierung von fast 100 Millionen Yuan von der Ant Group und der Baidu Ventures.

Im Jahr 2024 hat Shengshu Technology auf der Grundlage der U-ViT-Technologie das Video-Großmodell Vidu vorgestellt. Dies ist ein speziell für die Videoerzeugung entwickeltes Modell, das die reale physische Welt simulieren kann und die erzeugten Bilder reich an Details sind.

Noch wichtiger ist, dass die Bewegung in der Szene den physikalischen Gesetzen entspricht und daher realer aussieht.

Zu Beginn hat Shengshu Technology langsam bei der Produktentwicklung und dem Vertriebssystem vorgegangen. Die Laborfähigkeiten waren stark, aber es konnte keine stabile Einnahme erzielt werden; das Modell konnte laufen, aber es gab keine kontinuierlichen Zahlungen.

Das Problem lag nicht am Modell selbst, sondern am Schlüssel: Wie kann man das Modell in ein Produkt umwandeln? Wie kann man die Kunden dazu bringen, langfristig zu zahlen?

Der Wendepunkt kam im Jahr 2025.

Luo Yihang trat später dem Unternehmen bei und übernahm die Position des CEO. Er arbeitete zuvor bei ByteDance Huoshan Engine und war für die AI-Lösungen verantwortlich. Er hat lange Zeit im B2B-Geschäft gearbeitet, ist mit dem Beschaffungsprozess von Unternehmen vertraut und kennt auch die tatsächlichen Anwendungsfälle der Kunden.

Nach seiner Ernennung hat er zuerst die Produktstruktur klar gemacht und um Vidu ein vierstufiges System aufgebaut: MaaS, SaaS, Agent und APP. Unterschiedliche Ebenen entsprechen unterschiedlichen Kunden. Es gibt klare Lösungen sowohl für private Ersteller als auch für Unternehmensplattformen.

Technik und Geschäft werden gleichzeitig vorangetrieben.

Technisch hat Zhu Jun weiterhin das Team geleitet, um die Leistung und Effizienz des Modells zu optimieren. Offizielle Daten zeigen, dass Vidu in der globalen Bewertung von Video-Großmodellen auf Platz zwei und in China auf Platz eins steht. Die Erzeugungsgeschwindigkeit hat sich auch deutlich verbessert und ist etwa 10 Mal schneller als die von Sora2.

Geschäftlich hat Luo Yihang die Zusammenarbeit mit Kunden beschleunigt. Im Bereich von Film, Fernsehen und Inhalten deckt es ByteDance, Sony und CCTV Animation ab. Im Bereich von Markenmarketing kooperiert es mit L'Oréal und Anta. Gleichzeitig kooperiert es mit Lenovo und AMD, um die Implementierungsmöglichkeiten auf der AI-PC-Seite zu erkunden.

Im Jahr 2025 hat die Anzahl der Benutzer und die Einnahmen von Shengshu Technology um mehr als das 10-fache im Vergleich zum Vorjahr zugenommen. Es hat über 3.000 Unternehmen bedient und seinen Geschäftsverkehr auf über 200 Länder und Regionen ausgeweitet. Das Jahresdauerertrag von Shengshu Technology hat auch bereits die Marke von 20 Millionen US-Dollar überschritten.

Im Vergleich zu Anfang hat sich der Schwerpunkt von Shengshu Technology verändert. Das Unternehmen baut ein Produktsystem um die Videoerzeugungsfähigkeiten auf und beschränkt sich nicht mehr nur auf die Modellforschung.

02 Wendepunkt in der Branche

Innerhalb von weniger als drei Jahren hat Shengshu Technology sechs Finanzierungen und einen Aktienübertrag erhalten. Unternehmen wie Huawei, Ant, Baidu und Zhipu stehen alle hinter Shengshu Technology.

Neben Shengshu Technology hat der gesamte Bereich der AI-Videoerzeugung starke Investitionen aus der Industriekapital erhalten. Seit letztem Jahr sind die meisten der am schnellsten finanzierenden und wertsteigenden AI-Startups in China in den Bereich der Videoerzeugung konzentriert.

Technisch gesehen hat sich der Wendepunkt in der Branche in der zweiten Jahreshälfte 2024 ereignet: Die Architektur der multimodalen Modelle hat begonnen, sich auf DiT/Transformer zu konzentrieren.

Mit der Änderung der Architektur hat sich auch das Ergebnis geändert. Die "Langzeitkonsistenz" in der Videoerzeugung hat sich deutlich verbessert.

Einfach gesagt, die Bilder stimmen nun besser überein, Personen ändern nicht plötzlich ihr Aussehen und die Bewegungen sind flüssiger. Dies bedeutet, dass ein wichtiges Problem - die Stabilität - gelöst wurde.

Die AI-Videoerzeugung ist zum ersten Mal wirklich "kommerziell einsetzbar".

Das heißt, es ist nicht mehr nur eine Demonstrationseffekt, sondern kann in den realen Produktionsprozess integriert werden, als Werkzeug verwendet werden, in die Kosten einbezogen werden und die Effizienz berechnet werden.

Es gibt auch erste Startups, die damit wirklich Geld verdienen.

AI-Videoerzeugungsprodukte können die Videoproduktionszeit um etwa 80 % verkürzen und die Kosten um etwa 90 % senken. Gleichzeitig können sie verschiedene Szenarien wie Social Media, Werbung, Film und Fernsehen sowie E-Commerce abdecken und den hohen Bedarf an Inhaltserstellung befriedigen.

Daten der Economic Observer zeigen, dass im Dezember 2025 mehrere führende AI-Videounternehmen ihre Ergebnisse veröffentlichten. Ihre Einnahmen sind völlig anders als vor einem Jahr.

Letztes Jahr waren die Einnahmen so gering, dass sie fast vernachlässigt werden konnten. In diesem Jahr haben sie die "100-Millionen-Club" betreten, von etwa 140 Millionen Yuan bis fast 1 Milliarde Yuan.

Das Wachstum ist sehr deutlich.

Vor der aktuellen Finanzierung von Shengshu Technology gehörte der Rekord für die Einzel-Finanzierung im Bereich der AI-Videoerzeugung Aishi Technology. Im September letzten Jahres hat Aishi Technology angekündigt, eine Serie-B-Finanzierung von über 60 Millionen US-Dollar abgeschlossen zu haben. Nur einen Monat später hat es auch die Serie-B+-Finanzierung von 100 Millionen Yuan angekündigt.

Einer der wichtigsten Gründe, warum Aishi Technology investiert wurde, ist auch, dass es ein kommerzielles Modell entwickelt hat. Es wird berichtet, dass die globale Anzahl der Endbenutzer bereits 100 Millionen überschritten hat und 80 % der Einnahmen aus dem Endbenutzerbereich stammen.

Im B2B-Bereich bietet es API und maßgeschneiderte Videoerzeugungsdienste für Bereiche wie Werbung, Kurzfilme und Spiele an. Der Jahresdauerertrag (ARR) im Jahr 2025 hat 40 Millionen US-Dollar überschritten.

Im Dezember letzten Jahres hat das AI-Videoerzeugungsprodukt Pollo AI eine erste Finanzierung von 14 Millionen US-Dollar abgeschlossen, die von GaoCheng Capital geleitet und von ZhenFund mitinvestiert wurde.

Pollo AI hat die meisten gängigen Videoerzeugungsmodelle auf dem Markt integriert, einschließlich OpenAI's Sora, Midjourney, Vidu, Hailuo und Kling.

Es integriert verschiedene Modelle auf einer Plattform und markiert gleichzeitig die Stärken jedes Modells klar.

Beispielsweise ist ein Modell gut in der realistischen Darstellung, ein anderes eignet sich besser für animierte Effekte und ein weiteres hat eine bessere Stabilität bei der Darstellung von Personen.

Die Benutzer können direkt das passende Modell nach Bedarf auswählen, ohne selbst wiederholt zu testen. Dies ist effizienter und zielgerichteter.

Es ist bemerkenswert, dass Pollo AI schnell bei der Kommerzialisierung vorangeschritten ist: Die Anzahl der registrierten Benutzer hat 20 Millionen überschritten, die monatliche Anzahl der aktiven Benutzer hat 6 Millionen überschritten, die tägliche Anzahl der aktiven Benutzer hat 200.000 überschritten und der Jahresertrag hat 20 Millionen US-Dollar überschritten.

Es gibt noch einige andere Unternehmen in der Branche, die beachtenswert sind.

Eines ist das AI-Videoerzeugungsunternehmen Vivix AI, das von Liu Yu, dem Forschungsdirektor von SenseTime, gegründet wurde. Laut Z Fianace hat es im Februar eine Seed-Finanzierung abgeschlossen, die von Sequoia China und IDG Capital gemeinsam geleitet wurde. Im November letzten Jahres hat der Unternehmenswert in der Serie-A-Finanzierung die Marke von 1,32 Milliarden US-Dollar überschritten.

Das andere Unternehmen ist LiblibAI, das im Oktober letzten Jahres eine Serie-B-Finanzierung von 130 Millionen US-Dollar abgeschlossen hat. Obwohl es nicht nur auf die Videoerzeugung konzentriert ist, sondern hauptsächlich auf Bilder, hat es auch gute Fortschritte bei der Kommerzialisierung gemacht. Der halbjährliche ARR hat 1,5 Millionen US-Dollar überschritten.

03 Trend: Verstärkung der Spitzenposition

Was genau passiert hinter der Welle von Finanzierungen für multimodale Produkte, die durch die Videoerzeugung repräsentiert werden?

Liang Wei, der Gründer von MovieFlow, sagte der Pencil News, dass der Trend der Spitzenposition in dieser Welle von Finanzierungen deutlich ist. Der Schlüssel, um Finanzierung zu erhalten, liegt darin, ob die Anwendungsfälle reif sind und ob sie die kommerzielle Umsetzung unterstützen können.

Im Vergleich zu den letzten beiden Jahren liegt der größte Unterschied in der Branche darin, dass das Audio-Video-Integrationsmodell die Werkzeuge von der "Teilgenerierung" zur "Vollständigen Inhaltserstellung" verändert hat.

Zu diesem Zeitpunkt hat sich der Kernwert der Unternehmen von der reinen Technologie hin zu der Frage verlagert, wie man das Modell in ein benutzerfreundliches Produkt verpacken kann, damit die Benutzer es wirklich stabil nutzen können. Die Bereitstellung von standardisierten und szenariospezifischen Lieferdiensten ist die Kerngeschäftsmöglichkeit.

Derzeit bietet MovieFlow einerseits einfache Produkte für Endbenutzer und andererseits die professionelle Version MovieFlow Studio für die Filmproduktion. Es baut sowohl eine Inhaltscommunity wie YouTube auf als auch hochwertige Inhalte wie Netflix.

Liang Wei sagt voraus, dass die Branchenlandschaft im ersten Halbjahr 2026 grundsätzlich festgelegt sein wird. Der Raum für neue Teilnehmer wird sich deutlich verringern und die Ressourcen werden sich auf die Spitzenunternehmen konzentrieren, die sowohl stark in der Technologie als auch im Geldverdienen sind.

Deng Kun, der Leiter der strategischen Investitionseinheit von Giant Network und Investor in Aishi Technology und LiblibAI, sagte einst der Economic Observer: Im Jahr 2026 kann man in Bereichen wie E-Commerce, Bildung, Kurzfilmen und Animationsfilmen bessere kommerzielle Erträge von AI-Videos erwarten. Der nächste Entscheidungsfaktor liegt darin, ob man AI-Videoerzeugungsprodukte mit kinoreifer Bildqualität entwickeln kann.

Dieser Artikel stellt keine Anlageempfehlung dar.

Dieser Artikel stammt aus dem offiziellen WeChat-Account "Pencil News" (ID: pencilnews), Autor: Song Ge, Redakteur: Huang Xiaogui. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Drei Brüder aus Tsinghua-Universität haben erneut 600 Millionen Yuan an Kapital beschafft.

01

Probleme bei Video-Großmodellen

02

Wendepunkt in der Branche

03

Trend: Verstärkung der Spitzenposition