AI-Videogenerierung: Wie kann man die Grenzen der Kreativität aufbrechen?
01. Wenn neue Technologien auf alte Probleme stoßen
Wenn man für die zweite Hälfte des Jahres 2025 eine bemerkenswerte Richtung in der KI-Branche auswählt, ist die Videogenerierung fast unvermeidlich die Antwort. Nachdem OpenAI Sora 2 veröffentlicht und die App-Version online geschaltet hat, hat die Popularität von KI-Videos fast in "viraler" Geschwindigkeit weltweit rapide zugenommen.
Wenn man jedoch die Entwicklung der Branche nachvollzieht, wird man feststellen, dass dies kein zufälliges Produkterfolg ist. Hinter diesem Phänomen steckt die kontinuierliche Verbesserung der Videogenerierungstechnologie in den letzten zwei Jahren in Bezug auf Bildqualität, zeitliche Modellierung und Anwendbarkeit. Ob es sich um große Unternehmen oder Start-ups handelt, die stetig zunehmenden technologischen Beiträge von Sora, Veo und Tongyi Wanxiang haben die Iterationsgeschwindigkeit der globalen KI-Video-Fähigkeiten deutlich beschleunigt.
Eine tiefere Auswirkung zeigt sich allmählich innerhalb der Branche.
Wenn die Fortschritte der Modelle nicht länger nur auf die Bildqualität beschränkt sind, sondern allmählich auch auf Erzählfähigkeit, Konsistenz von Personen und Stilen, Synchronisation von Audio und Video sowie logische Kontinuität zwischen verschiedenen Szenen abzielen, die für die industrielle Produktion von entscheidender Bedeutung sind. Wenn die generierten Ergebnisse die Schwelle von "ansehbar" überschreiten und sich "nutzbar" und "gut nutzbar" annähern, tritt KI-Video tatsächlich in die Öffentlichkeit und wird damit zu einem der spannendsten Geschäftsfelder.
Zur gleichen Zeit steht die Videobranche selbst vor einer strukturellen Herausforderung.
In den letzten zehn Jahren war die um Videos kreisende Branche weltweit eine der am schnellsten wachsenden, kapitalintensivsten und innovativsten Bereiche. Von Film- und Unterhaltungsbranche, Werbung und Marketing bis hin zu E-Commerce-Inhalten, Social-Media-Plattformen und der Ökonomie von Content-Creator*innen hat Video allmählich zur zentralen Form der Information, Unterhaltung und des Geschäfts geworden. Mit der Reife der Branche und der zunehmenden Konkurrenz wird die Inhaltserstellung jedoch an ihre Grenzen gebracht. Kurze Serien, E-Commerce und Werbung befinden sich in einer Phase von "schneller, detaillierter und größerer Produktion". Die Aktualisierungszyklen der Inhalte werden auf Stunden oder sogar Minuten reduziert, während die traditionellen Produktionsketten, die auf eine große Anzahl von Arbeitskräften und lange Produktionszeiten angewiesen sind, zunehmend mit diesem Tempo in Konflikt geraten.
Druck zeigt sich in verschiedenen Bereichen auf unterschiedliche Weise: Die traditionelle Film- und Werbebranche ist immer noch stark von erfahrungsreichen Arbeitskräften abhängig, und die Kosten für Vorschläge und Fehlversuche bleiben hoch. Die Nachfrage von MCNs und E-Commerce-Sektoren nach hochfrequenten, fragmentierten Materialien übersteigt bereits die Kapazität der traditionellen Aufnahme- und Bearbeitungsprozesse. Kurze Serien und KI-Comics stellen nach der anfänglichen groben Phase höhere Anforderungen an die Konsistenz von Charakteren, Szenen und Kameraschüssen. Ausländische Inhalte stehen gleichzeitig vor der doppelten Herausforderung von Geschwindigkeit und interkultureller Anpassung.
Mit der stetig wachsenden Nachfrage nach Inhalten und der schnellen Reife der KI-Videogenerierungstechnologie beginnt sich die Ökosystemstruktur der Inhaltsbranche zu verändern.
Einerseits wird die Schaffensschwelle deutlich gesenkt. Video ist nicht länger nur eine Inhaltsform, die nur von wenigen professionellen Teams stabil produziert werden kann. Einzelne Creator*innen und kleine Teams beginnen, industrienahe Produktionsfähigkeiten zu entwickeln.
Andererseits entsteht ein neues Zwischenschicht um die Videogenerierung – von Schaffenswerkzeugen, Workflow-Plattformen bis hin zu vertikalen Lösungen für Werbung, E-Commerce und Kurze Serien. Immer mehr Unternehmen beginnen, KI-Videos als Basisfähigkeit neu zu gestalten und ihre Produktformen anzupassen.
Dies bringt eine Reihe von Folgeeffekten mit sich. Beispielsweise wird auch die Beziehung zwischen Plattformen und Creator*innen neu gestaltet. Wenn Inhalte zu wiederholbar generierbaren, schnell validierbaren und kontinuierlich optimierbaren Prozessassets werden, wandelt sich die Videoproduktion von einer einmaligen Schaffensleistung allmählich zu einem skalierbaren Systemprojekt.
Deshalb sind in den letzten Monaten weltweit zahlreiche Start-ups in der gesamten Wertschöpfungskette der KI-Videogenerierung aufgetaucht: Einige setzen auf die Verbesserung der Videogenerierungsfähigkeit selbst und rekonstruieren den Ausgangspunkt der Videoproduktion. Andere konzentrieren sich auf den Workflow von Creator*innen und integrieren KI in Skript, Storyboard und Schnitt. Wieder andere richten sich an Unternehmen und Branchenanwendungen und betonen die Stabilität und Skalierbarkeit der Lieferung. Im Auslandsgeschäft wird die sprachübergreifende und lokalisierte Generierung zu einem wichtigen Durchbruchspunkt.
Wenn technologische Durchbrüche und die skalierten Anforderungen in China zeitgleich zusammenkommen, wird in der Inhaltsbranche allmählich eine klare Einsicht: Die KI-Videogenerierung ist bereits ein wichtiger Bestandteil der nächsten Generation von Infrastrukturen für die Inhaltsbranche. Stabile Technologien und schnelle Werkzeuge reichen nicht aus. Creator*innen brauchen möglicherweise ein grundlegendes, erweiterbares Produktivitätssystem.
02. Die Grenzen der Schaffenskraft werden von der Technologie aufgerissen
Jedes Unternehmen reagiert auf diesen Trend mit seinen eigenen Aktionen.
OpenAIs Sora repräsentiert eher die Strategie der Demonstration von universellen Fähigkeiten: Durch die Erzeugung von Videos von höchster Qualität und starker visueller Wirkung öffnet es schnell die Öffentlichkeit für KI-Videos und bringt sie in die Massenkultur und soziale Kommunikation. Google Veo setzt hingegen auf seine Forschungsstärken in der Multimodalität und Generierungsmodellen und betont die Fähigkeit des Modells, lange Zeiträume zu verstehen und komplexe Szenen auszudrücken. Dies ist eher eine Vorabforschung auf dem Gebiet der Technologie.
In China setzen mehr Unternehmen auf die Plattformökosystem: Einige kombinieren die Videogenerierungsfähigkeit mit Inhaltsverteilung, Creator*innen-Systemen und Empfehlungsmechanismen und versuchen, KI-Videos in den bestehenden Schaffens-Kommunikations-Zyklus zu integrieren. Andere stärken die Generierungsfähigkeit in den gesamten Videoproduktionsprozess und verbessern so die Effizienz der Inhaltslieferung.
Diese Wege haben unterschiedliche Schwerpunkte: Einige befassen sich zunächst mit der Frage, "kann man generieren und wie gut sieht das Ergebnis aus", andere konzentrieren sich eher auf "wie man damit spielt und wie man es verbreitet". Es gibt auch einen neuen Weg, der sich allmählich abzeichnet: die Betrachtung der Videogenerierung als Produktivitätsfähigkeit.
Der Unterschied zwischen diesen Wegen basiert im Wesentlichen auf der unterschiedlichen Wahrnehmung von "nützlich" oder "spannend", "B2B" oder "B2C".
In B2C-Szenarien übernimmt KI-Video eher die Funktion der Unterhaltung und Selbstausdruck. "Spannend", "neu" und "individuell" stehen oft vor der Stabilität. Benutzer sind toleranter gegenüber zufälligen Inkonsistenzen und Fehlern. In B2B-Szenarien wie Werbung, E-Commerce und Kurze Serien interessieren Creator*innen und Unternehmen sich vor allem für die langfristige Konsistenz von Kameraschüssen, Personen und Stilen, die Kontrollierbarkeit und Wiederverwendbarkeit der Inhalte sowie die stabile Ausgabe in einem hohen Tempo und bei hoher Last.
Dies ist auch eine leicht zu übersehende Spaltung auf dem Markt: Viele Videomodelle können die Anforderungen von B2C-Nutzern an Neugier und Schaffenskraft befriedigen, aber sie können die Anforderungen von B2B an Bestimmtheit und Skalierbarkeit kaum erfüllen. Wenn KI-Video-Fähigkeiten nicht in den B2B-Produktionsprozess integriert werden können, ist es schwierig, sie in Produktivitätssteigerungen umzuwandeln.
Alibaba hat sich für einen schwierigeren, aber auch wertvolleren Weg entschieden – die KI-Videogenerierung als Brancheninfrastruktur zu etablieren. Am 17. Dezember wurde auf der Alibaba Cloud Apsara Release Event die Tongyi Wanxiang 2.6 (Wan2.6) offiziell kommerzialisiert. Als das Kernmodell von Alibaba in der Videogenerierung versucht Wanxiang, auf die Trends in der Inhaltsbranche zu reagieren, von der einfachen Generierung hin zur Produktionsfähigkeit und von der experimentellen Nutzung hin zur skalierbaren Umsetzung.
Jin Luyao, die Produktverantwortliche von Tongyi Lab, hat uns von verschiedenen Perspektiven die wichtigsten Fähigkeiten für Creator*innen in der praktischen Produktion erklärt, wie die Erzählung in mehreren Szenen, die Generierung von Videos auf der Grundlage von Referenzen und die stabile Ausgabe von langen Videos. Sie hat auch erläutert, wie diese Anforderungen die Entwicklung der Modellfähigkeiten beeinflussen.
Um KI-Videos tatsächlich in den Produktionsprozess zu integrieren, ist die Fähigkeit zur Erzählung in mehreren Szenen die wichtigste Voraussetzung.
In der realen Videoproduktion ist die Qualität eines einzelnen Bildes nie das schwierigste Problem. Die echte Herausforderung liegt in der Kontinuität zwischen verschiedenen Szenen – die Stabilität der Charaktere, die Kohärenz der Szenen und die Logik der Zeit und Erzählung. Frühe Videomodelle waren besser darin, isolierte, hochwertige Szenen zu generieren. Sobald es um die Produktion mit mehreren Kameras und verschiedenen Szenen geht, treten Probleme wie die Verschiebung von Details der Charaktere, die Unterbrechung der Handlungslogik und die Inkonsistenz der Informationen auf. Dies ist auch der Hauptgrund, warum KI-Videos lange Zeit auf die Konzeptpräsentation oder einzelne Szenen beschränkt blieben.
In Wan2.6 wird die Fähigkeit zur Erzählung in mehreren Szenen zur Kernfähigkeit des Modells. Im Gegensatz zum Ansatz der "Abschnittsweise Generierung und anschließende Zusammenfügung" betont Tongyi Wanxiang die globale Modellierung der Zeitachse und der Kamerasprache während der Generierung: Das Modell muss von Anfang an klar sein, "wer der Hauptcharakter ist", "wie sich der Raum ändert" und "wie die Erzählung fortschreitet", damit die Kameraschnitte kontrollierbar werden können. Dazu stärkt Wanxiang die Konsistenz des Hauptcharakters und die zeitliche Modellierung während des Trainings und der Inferenz und unterstützt die Anweisungen in natürlicher Sprache für das Storyboard, so dass Creator*innen die Erzählung in mehreren Szenen direkt durch Hinweise steuern können.
Dies schafft die Grundlage für die Kontinuität, die für die industrielle Produktion von Videos erforderlich ist.
Generiert von Tongyi Wanxiang
Jin Luyao hat uns gesagt, dass ein weiterer wichtiger Bedarf besteht darin, dass Creator*innen gerne die Erscheinung, Bewegungen und sogar Stimmen von realen Personen oder Objekten beibehalten und sie in neue virtuelle Szenen einbetten möchten. In der Vergangenheit waren diese Anforderungen stark von der Aufnahme, Modellierung und komplexen Nachbearbeitung abhängig, was hohe Kosten und einen hohen technologischen Schwellenwert mit sich brachte.
Wan2.6 erweitert die Referenzobjekte von Bildern auf Videos und verbessert die Fähigkeit zur globalen Modellierung von Erscheinung, Bewegung und Stimme. Das Modell unterstützt die Eingabe von Referenzvideos von etwa 5 Sekunden Länge, bei denen Personen, Tiere oder Objekte als Hauptobjekte für die anschließende Generierung dienen können. Es kann nicht nur die Erscheinung reproduzieren, sondern auch die Bewegungsmuster, Gesichtsausdrücke und Klangmerkmale lernen und so ein synchronisiertes Ergebnis von Audio und Video erzielen.
Im Vergleich zu einzelnen Bildreferenzen können Video-Referenzen vollständige dreidimensionale und zeitliche Informationen liefern, so dass das Modell die Hauptobjekte besser verstehen kann, ähnlich wie in der realen Welt. Diese Fähigkeit ist in der Praxis besonders wichtig. Ob ein Unternehmen eine grobe Materialbasis für eine vollständige Werbespots generiert oder ein Creator*in eine reale Person mit einer virtuellen Umgebung kombiniert, die Video-Referenzgenerierung senkt deutlich die Produktionsschwelle und erweitert die Anwendbarkeit von KI-Videos in kommerziellen Szenarien.
Generiert von Tongyi Wanxiang
Generiert von Tongyi Wanxiang
"Bei der Videogenerierung ist die Länge immer eine Variable, die sorgfältig abgewogen werden muss." Jin Luyao fügt hinzu.
Zu kurze Videos können keine vollständige Botschaft vermitteln. Sobald die Länge erhöht wird, steigt die Schwierigkeit für das Modell, die Konsistenz und zeitliche Stabilität zu gewährleisten, exponentiell. In der Branche halten die meisten Videomodelle die stabile Generierungslänge auf etwa 4 Sekunden. Ein zusätzlicher Sekunde bedeutet oft eine exponentielle Zunahme der technologischen Herausforderungen.
Wan2.6 kann die kontrollierbare Generierungslänge auf etwa 15 Sekunden stabil halten und unterstützt die Ausgabe in 1080P und die Synchronisation von Audio und Video. Für kommerzielle Szenarien wie Werbung, E-Commerce-Präsentationen und Storyboards von Kurze Serien kann 15 Sekunden eine vollständige Erzählung enthalten, ohne die Kosten für Änderungen und Kontrolle wesentlich zu erhöhen. Es ist eine "passende" Länge für die Inhalte.
Bei der Veröffentlichung von Wan2.6 hat auch die Fähigkeit zur Text-basierten Bildgenerierung eine gleichzeitige Verbesserung erfahren. Neben der grundlegenden Generierung hat das Modell die Fähigkeit, die Erzählstruktur zu verstehen und unterstützt die Eingabe von gemischten Text- und Bildformaten. Es kann automatisch aus einfachen Hinweisen eine Geschichte zerlegen und Storyboard-Bilder generieren, was die Effizienz der Erstellung von erzählenden Inhalten erheblich verbessert. In Kombination mit der Mehrbildreferenz und der kommerziellen