Von Soras Schrecken bis zur Gegenattacke im Traum: Der Weg Chinas bei der AI-Videoerzeugung
Während der Frühlingsgalas im Jahr des Pferdes hat die wunderschöne Szenerie des Stücks "Grüße an die Blumengöttin" das Internet in Sturm gesetzt. Daraufhin wurde die API des Seedance 2.0 - Modells, das diese visuelle Wunderwelt erst ermöglichte, für Aufrufe geöffnet, und die Gebühr beträgt einen Euro pro Sekunde.
Werfen wir einen Blick zurück in die Zeit vor zwei Jahren. Damals galt die AI - Videoerzeugung als ein Bereich, in dem China "schlichtweg nicht mithalten kann". Anfang 2024 tauchte plötzlich OpenAIs Sora auf. Ein 60 - Sekunden - Video von "einer jungen Frau, die an einer Straße in Tokio spaziert", war so realistisch, dass es kaum von einem echt gefilmtem Video zu unterscheiden war. Im Gegensatz dazu konnten die meisten chinesischen Videomodelle damals nur 5 - 12 Sekunden lange Videos erzeugen, mit starren Gesichtern, durchdringenden Fingern und physikalischen Unstimmigkeiten, was die Videos auf den ersten Blick als gefälscht erscheinen ließ.
Sora war wie eine Ohrfeige für die chinesische AI - Branche. Angesichts dieser technologischen Bedrohung konnte die chinesische AI - Industrie nicht nur zuschauen. Ähnlich wie in der Science - Fiction - Novelle "Drei Sonnen" startete die chinesische AI - Branche ihren eigenen "Plan der Gedankenmauerer", um sich von der Schreckensangst vor Sora zu befreien und schließlich eine Umkehrung des Schicksals herbeizuführen. Die Qualität der erzeugten Videos stieg in die Höhe, während die Kosten auf das Minimum reduziert wurden. Diese Geschichte ist es wert, im aktuellen Moment des Aufbruchs der AI - Videoerzeugung noch einmal zu betrachten.
Die Ankunft von Sora: Die dunkelste Stunde der chinesischen AI
Mit der Entstehung von Sora Anfang 2024 geriet die chinesische AI - Branche in ihre dunkelste Stunde. In jener Zeit war mein Freundeskreis voller Kommentare über die Überlegenheit der ausländischen Videoerzeugungstechnologie.
Die Enttäuschung der Menschen stammte sowohl aus der offensichtlichen technologischen Kluft als auch aus der imaginären Katastrophe.
Die Videoerzeugung ist viel komplexer als die Textgenerierung. Es müssen gleichzeitig Probleme wie die Konsistenz der Objektformen in der Raumdimension, die Kontinuität der Bewegung in der Zeitdimension, die genaue Simulation der physikalischen Gesetze und die Synchronisation von Ton und Bild gelöst werden. Im Vergleich zu Sora hatten die chinesischen Modelle keine Chance.
Schlimmer als die Rückständigkeit war die scheinbar unüberwindbare technologische Barriere.
Damals waren die weltweit führenden Videoerzeugungsmodelle wie MidJourney, Runway und DALL·E ausländische Produkte. China hatte weder die Kerntechnologie wie Soras DiT - Architektur noch genügend Top - Grafikkarten von Nvidia. Die Branche sah daher pessimistisch in die Zukunft: Die technologische Lücke zwischen China und dem Ausland sei unüberbrückbar, und China könne kein eigenes großes Videomodell entwickeln.
Zusammenfassend betrachtet, hatte Sora vielfältige Auswirkungen auf die chinesische AI - Branche. Bisher hatte die Entwicklung der chinesischen AI - Industrie hauptsächlich auf Innovationen in der Anwendungsebene beruht. Die Videoerzeugung jedoch gehörte zu den Kerntechnologien, und es gab keine Abkürzungen in der Anwendungsentwicklung. Dadurch wurden die Schwächen der Branche plötzlich unmöglich groß.
Darüber hinaus führten die Nachteile bei der Rechenleistung und dem Mangel an hochwertigen Trainingsdaten für Videos zu einer Gefühl der Hoffnungslosigkeit in der Branche. Die chinesischen Anbieter gerieten in eine Debatte darüber, "ob man Sora einholen sollte". Die meisten Unternehmen wollten nicht die ersten sein, die den Sprung wagten, was die Umkehrung der Lage noch weiter in die Ferne rückte.
Zum Glück gibt es keine Menschen, die in der Gefahr nur zuschauen. Die chinesische AI - Gemeinschaft aus Wissenschaft und Industrie machte sich schnell in Bewegung und wurde zur Lösung der Sora - Krise.
Die Ära der Bedrohung: Drei Heere der Sora - ähnlichen Modelle
Unter Soras technologischer Bedrohung gingen die akademische Welt, die großen Unternehmen und die branchenspezifischen Firmen drei verschiedene Wege, um die Lücke zu Sora allmählich zu schließen.
Zuerst machte sich die akademische Szene in Bewegung.
Es ist bemerkenswert, dass die chinesischen großen Sprachmodelle wie ChatGPT von Unternehmen wie Baidu und Alibaba vorangetrieben wurden, während die ersten Schritte in der Entwicklung von chinesischen Sora - ähnlichen Videoerzeugungsmodellen von der akademischen Welt unternommen wurden.
Am Tag nach der Veröffentlichung von Sora hat die Tsinghua - Universität schnell ein Patent für die Text - zu - Video - Technologie beantragt und damit die technologische Vorsprungsposition erobert. Danach hat die Tsinghua - Universität in Zusammenarbeit mit Shengshu Technology eine ursprüngliche Architektur entwickelt, die Diffusion und Transformer kombiniert, und damit das erste chinesische große Videomodelle mit langer Dauer, hoher Konsistenz und hoher Dynamik geschaffen. Dies war ein Meilenstein in der chinesischen Videoerzeugungstechnologie.
Die aktive Haltung der akademischen Welt gegenüber der Sora - Bedrohung war kein Zufall.
Einerseits liegt der Kern der Sora - ähnlichen Modelle in der Architekturinnovation. Hochschulen und Forschungsinstitute haben keine kommerziellen Zwänge wie Unternehmen und können sich auf die Grundlagenforschung konzentrieren. Darüber hinaus ist die Entwicklung von Videoerzeugungsmodellen ein Riesenkonsument an Rechenleistung. Die Investitionen von Unternehmen allein können die langfristigen Fehlversuche nicht tragen. Die akademische Welt hingegen kann sich auf politische Fördermaßnahmen, staatliche Subventionen für Rechenleistung und Forschungsfonds stützen, um risikoreiche und kostspielige Kernforschungsprojekte durchzuführen. Ende 2024 besuchte ich das Changchun - Künstliche - Intelligenz - Rechenleistungszentrum. Von den insgesamt 300P Rechenleistung des Zentrums wurden mehr als 200P von einem Sora - Vergleichsprojekt einer Universität in Peking beansprucht. Dank der Rechenleistung aus vollständigen nationalen Komponenten und der Subventionspolitik von Changchun hatten die Forscher die Zuversicht, Sora zu reproduzieren.
Als Nächstes kamen die Daten - Spezialisten aus den großen Unternehmen ins Spiel. Kuaishou's Keling und Bytedance's Jimeng wurden nacheinander eingeführt.
Im März 2024 hat Jimeng AI die interne Testphase mit Bytedance's eigenentwickelten Seedream - und Seedance - Modellen begonnen. Im Juni 2024 hat Kuaishou sein eigenentwickeltes großes Videoerzeugungsmodell Keling eingeführt. Die technologische Route ist an Sora angelehnt und unterstützt die Erzeugung von Videos mit einer Auflösung von 1080p und einer maximalen Länge von 2 Minuten.
Viele fragen sich, warum es Jimeng und Keling sind. Der Grund ist, dass sie auf großen Videoinhaltsplattformen basieren und über Milliarden von Kurzvideos in verschiedenen Szenarien wie Alltag, E - Commerce und Drama verfügen. Dies bietet eine hochwertige Datenbasis für die Modellentwicklung. Nachdem die Modelle eingeführt wurden, konnten sie die Daten - Flywheel - Wirkung der Videoinhaltsökosysteme nutzen und sich schnell verbessern. Beispielsweise hat Keling einen Testeingang in der Kuaishou - Video - App geöffnet und dadurch Millionen von Inhaltserstellern auf der Plattform dazu gebracht, das Modell zu nutzen. Die von diesen Nutzern erzeugten Inhalte aus realen Erstellungsszenarien haben wiederum das Modell verbessert.
Die großen Unternehmen mit Daten - Fokus haben einen effizienten Weg zur technologischen Einholung eingeschlagen. Was ist mit den anderen Unternehmen?
Nicht alle Unternehmen haben sich entschieden, Sora vollständig zu imitieren. Unternehmen wie Kunlun Wanwei und Alibaba haben einen dritten Weg eingeschlagen: Sie konzentrieren sich auf spezifische Branchen und schaffen differenzierte Vorteile.
Obwohl Soras Fähigkeit zur universellen Videoerzeugung sehr stark ist, bestehen die tatsächlichen Bedürfnisse der Nutzer oft darin, spezifische Probleme in einem bestimmten Bereich zu lösen. Deshalb haben diese Unternehmen aufgehört, blind auf universelle Modelle zu setzen und sich stattdessen auf konkrete Geschäftsszenarien konzentriert, um die tatsächlichen Probleme der Nutzer zu lösen.
Beispielsweise hat Kunlun Wanwei's Tianguang - Modell seinen Fokus auf die Produktion von AI - Kurzfilmen gelegt. Die Produktion von Kurzfilmen erfordert eine hohe Qualität bei der Darstellung von Gesichtsausdrücken, der Wiedergabe von Gegenständen und der Kohärenz der Handlung. Die bisherigen universellen Modelle hatten jedoch häufig Probleme wie starre Gesichtsausdrücke und ungenaue Gegenstände. Das Tianguang - Modell hat diese Probleme gezielt angegangen und sich in Bezug auf die Erzeugung von Gesichtsausdrücken, die Konsistenz von Gegenständen, die Länge und die Kontrollierbarkeit der erzeugten Videos verbessert. Dadurch ist es besser auf die Bedürfnisse von Kurzfilm - und E - Commerce - Werbe - Erstellern zugeschnitten.
Alibaba hat sich auf die Ökosystementwicklung und die Offenlegung von Technologien konzentriert. Mit der Unterstützung der Forschungsinstitute und der Rechenleistung von Alibaba Cloud hat es Videomodelle wie Tongyi Wanxiang und Qwen - Image - 2.0 entwickelt und die Kerntechnologien offen gelegt. Die Offenlegung hat nicht nur eine große Anzahl von Entwicklern zur Verbesserung der Modelle angeregt, sondern auch Alibabas AI - Video - Fähigkeiten schnell in SaaS - Tools wie DingTalk und E - Commerce - Dienste wie Taobao integriert.
Die parallele Exploration der drei Heere hat schließlich die pessimistische Erwartung der Außenwelt in Bezug auf die chinesische AI - Videoerzeugung komplett umgedreht. Doch die größeren Herausforderungen warten noch.
Im Geschäftsmist: Die Spannung zwischen Kostenrechnung und Rechenleistung
Nachdem die Technologie in den Griff bekommen wurde, muss man auch die Wirtschaftlichkeit betrachten. Im Gegensatz zu ausländischen Videoerzeugungsmodellen wie Sora und Runway hat die chinesische AI - Videoerzeugung von Anfang an größere Herausforderungen bei der kommerziellen Erschließung zu bewältigen.
Einerseits gibt es keine etablierten Geschäftsmodelle für Sora - ähnliche Modelle. Der ausländische Markt kann nur über den Verkauf von APIs und die Abrechnung nach Tokens Geld verdienen. Andererseits ist die Zahlungsbereitschaft der chinesischen Nutzer noch nicht vollständig entwickelt. Sowohl Unternehmensnutzer als auch Privatnutzer sind weniger bereit zu zahlen als ausländische Nutzer. Das bedeutet, dass jede Investition in die bisherigen Videoerzeugungsmodelle eine Art Vorausschuss ist.
Unter diesen Umständen sind die chinesischen Unternehmen gezwungen, kostengünstige Lösungen für die Umsetzung der AI - Videoerzeugungstechnologie zu finden.
Die Rechenleistung ist die Kernkostenfaktor der AI - Videoerzeugung und auch das größte Problem der chinesischen Unternehmen. Angesichts der Beschränkungen bei der Grafikkartenlieferung mussten die chinesischen Unternehmen andere Wege gehen und die Modellarchitektur und die Hardwareanpassung gleichzeitig optimieren.
Das Vidu - Modell von Shengshu Technology hat eine ursprüngliche U - ViT - Architektur für die effiziente End - to - End - Erzeugung entwickelt und die Eigenschaften der chinesischen Chips berücksichtigt. Dadurch kann es mit weniger Rechenkarten die gleiche Leistung wie ausländische Modelle erzielen.
Nach der Anpassung an mehrere chinesische Chips hat Seko 2.0 von SenseTime die Rechenleistungskosten für die Produktion eines einzelnen Episoden - Kurzfilms halbiert. Früher kostete die Erzeugung einer AI - Werbung 500 Yuan an Rechenleistung, jetzt reichen es nur noch einige Dutzend Yuan.
Wenn die Optimierung der Rechenleistung eine Art Kostensenkung ist, dann ist die Innovation des Geschäftsmodells eine Art Einnahmeerhöhung.
Angesichts der Situation, dass chinesische Nutzer "sobald die kostenlose Nutzung endet, die Lust verlieren", haben die chinesischen Unternehmen neben den ausländischen Abonnement - und Token - Paket - Modellen auch neue Geschäftsmodelle wie die Aufteilung der Werbeeinnahmen zwischen Plattformen und Händlern, die Aufteilung der Einnahmen nach der Anzahl der Videoansichten zwischen Plattformen und Inhaltserstellern und die Bereitstellung von maßgeschneiderten Videoerzeugungsdiensten für Unternehmen entwickelt.
Beispielsweise erzeugen Inhaltsersteller mit Kuaishou's Keling E - Commerce - Werbe - Kurzvideos und verlinken die Waren auf der Plattform. Die Plattform teilt dann die Werbeeinnahmen mit den Erstellern basierend auf der Anzahl der Videoansichten und der Klickrate der Waren. Hongguo Kurzfilme arbeitet mit Produzenten zusammen, um die Produktionskosten mit dem Seedance - Modell zu senken und teilt dann die Einnahmen basierend auf der Anzahl der Ansichten der AI - Manga - Filme mit den Produzenten.