Warum führt das chinesische Modell bei AI-Videos an?
Bis das Seedance 2.0 von ByteDance auftrat und Aufsehen erregte, wurde von vielen Menschen zum ersten Mal bewusst, dass die chinesischen Modelle im Bereich der KI-Videoscheinbar nicht nur hinterherjagen, sondern inzwischen an der Spitze laufen.
Seedance 2.0 hat nicht durch eine einzelne beeindruckende Bildsequenz Aufsehen erregt, sondern eine subtile, aber tiefgreifende Veränderung gebracht: KI-Videos werden erstmals wie industriell gefertigte Produkte stabil geliefert.
Multimodale Eingabe, automatische Kameraführung und Langzeitkonsistenz - die Kombination dieser Fähigkeiten bedeutet, dass Kreative die Qual der wiederholten Zufallsgenerierung vermeiden können und stattdessen einen wiederverwendbaren Produktionsprozess einführen können.
Wenn man die Zeitachse zurückzieht, wird deutlich, dass die Führung chinesischer Unternehmen im Bereich der KI-Videos nicht plötzlich erfolgt ist.
Tatsächlich hatten chinesische Modelle bereits früher einen deutlichen Vorsprung im Bereich der KI-Videos.
Beispielsweise erreichte das Kuaishou Keling 2.0 im April letzten Jahres im Vergleich zu Sora einen Gewinnverhältnis von 367 % bei der Texterzeugung von Videos. Es führte in Bezug auf die Personenkonsistenz, die Generierungsstabilität und die Reproduzierbarkeit umfassend an und war das erste, das kommerziell nutzbare KI-Videoerzeugungsfähigkeiten erreichte.
Die Stabilität von KI-Videos ist von großer Bedeutung. Kann die Person konsistent bleiben? Verzerrt sich das Bild mitten im Video? Kann das Ergebnis wiederholt reproduziert werden?
Genau diese Indikatoren bestimmen, ob ein Video in die tatsächliche Produktion aufgenommen werden kann.
Später konnten wir beobachten, dass eine Reihe chinesischer Unternehmen diesen Weg weiterverfolgten.
ByteDance hat in der Seedance - Plattform die Erzählung und die Kameralogik stetig verbessert, während kleinere Startup - Teams das Videoerzeugungssystem direkt in die Arbeitsabläufe von E - Commerce, Werbung und Spielwerbung integrieren.
Zusammengenommen deuten diese Phänomene auf eine leicht zu übersehende Schlussfolgerung hin:
Der vorübergehende Vorsprung chinesischer Modelle im Bereich der KI-Videos liegt nicht darin, dass die Modelle "klüger" sind, sondern dass sie das Video eher als ein technisches Problem behandeln.
Um dies zu verstehen, muss man zur Entstehung der Methodik der KI-Videoerzeugung zurückgehen.
Bereits 2015 haben Forscher in der Künstlichen Intelligenz einen scheinbar umständlichen Ansatz vorgeschlagen:
Da es schwierig ist, komplexe Daten direkt zu generieren, kann man die echten Daten zunächst schrittweise in Rauschen verwandeln und dann durch Training und Lernen das Rauschen schrittweise wieder in reale Daten zurückverwandeln.
Dieser Ansatz basiert auf probabilistischer Modellierung und statistischer Physik und wurde später in das Deep Learning eingeführt, was zur Entstehung des Diffusion - Modells führte, das in der Bild - und Videoerzeugung dominierend geworden ist.
Das Diffusion - Modell hat erst nach 2020 in den Mainstream Eingang gefunden.
Mit der Verbesserung der Rechenressourcen und der Reifung der Trainingsmethoden hat sich dieser Ansatz bei der Bildgenerierung durch hohe Stabilität und detaillierte Darstellung ausgezeichnet.
Heute ist es so, dass bei hochwertigen, detaillierten und stabilen Generierungsergebnissen, sei es bei Bildern oder Videos, fast immer das Diffusion - Modell im Hintergrund steht.
Das Diffusion - Modell ist gut darin, Dinge realistisch zu zeichnen, aber das ist auch seine einzige Stärke.
Selbst wenn es extrem empfindlich für Licht, Textur und Stil ist, versteht es nicht wirklich die Reihenfolge und die Kausalität der Neukombination von Dingen.
Deshalb wirken frühe KI-Videos oft seltsam gespalten: Einzelne Bilder sind fein gearbeitet, aber zusammengefügt wirken sie wie ein Traum. Die Personen sind nicht immer dieselben, und die Bewegungen sind unkontinuierlich. Denn die zugrunde liegende Logik ist eine Art "Klassenträger" aus Entropieerhöhung und -reduzierung.
Gleichzeitig hat sich ein anderer Technologieansatz schnell entwickelt: die berühmte Transformer - Architektur, die mit der Popularität von GPT in den Fokus gerückt ist. Sie löst nicht das Problem der Generierung, sondern das der Beziehungen.
Beispielsweise wie Informationen übereinstimmen, wie die zeitliche Reihenfolge verstanden wird und wie langfristige Abhängigkeiten erfasst werden. In Bezug auf die Fähigkeiten liegt der Schwerpunkt des Transformers eher auf dem Verständnis der Struktur, während das Diffusion - Modell eher für die Bildgenerierung zuständig ist.
So hat sich eine klare Aufgabenteilung herausgebildet.
Der Transformer ist gut darin, Struktur und Reihenfolge zu planen, während das Diffusion - Modell gut darin ist, die Bilder tatsächlich zu generieren.
Das Problem ist, dass diese Aufgabenteilung lange Zeit nicht systematisch genutzt wurde.
Über einen langen Zeitraum haben ausländische Teams bei der KI-Videoerzeugung eher versucht, die Grenzen des Diffusion - Modells zu erweitern.
Beispielsweise indem sie längere Videos, komplexere Welten und realistischere physikalische Effekte anstrebten.
Die Ergebnisse waren beeindruckend, wie die Leistung von Sora, die das Potenzial des Modells beim Verständnis der realen Welt zeigt.
Aber dieser Ansatz hat auch deutliche Nachteile: Hohe Generierungskosten, hoher Fehlerrate und schlechte Reproduzierbarkeit. Er eignet sich eher zur Demonstration der Zukunft als zur Unterstützung der heutigen Produktion.
Im Vergleich dazu haben chinesische Modellteams einen weniger auffälligen, aber praktischeren Weg eingeschlagen.
Vielleicht haben sie früher erkannt, dass die Kernschwierigkeit bei Videos nicht darin besteht, sie zu generieren, sondern sie fertigzustellen.
Wer zuerst auftritt, wie die Kameraführung verläuft, wann die Perspektive wechselt und welche Details konsistent bleiben müssen - diese in der traditionellen Filmproduktion auf Erfahrung basierenden unsichtbaren Abläufe werden als Randbedingungen für das Modell definiert.
In diesem System hat der Transformer nicht mehr die Aufgabe, die Welt zu verstehen, sondern die Struktur und den Rhythmus des Videos zu planen;
Das Diffusion - Modell muss sich nicht mehr frei entfalten, sondern konkrete Bilder unter klaren Anweisungen generieren.
Nach dieser Methodik wird das Video nicht mehr als ein künstlerisches Wunder betrachtet, sondern als eine Produktionslinie, bei der die Erfolgsrate kontrolliert werden muss.
Dieses Ziel, Probleme zu lösen anstatt einfach die Grenzen zu erweitern, entspricht eher einer technischen Logik.
Tatsächlich hat das chinesische Internet in den letzten zehn Jahren seine Kernkompetenz auf die Optimierung von Inhaltsproduktionslinien konzentriert.
Bei Kurzvideos, E - Commerce - Livestreams, Newsfeed - Werbung und Spielwerbung wird ähnliche Logik angewandt: Eine große Menge von Daten wird decodiert, die A posteriori - Wahrscheinlichkeiten berechnet und dann in Standardbauteile zerlegt, um sie zu reproduzieren.
Wenn dieser Ansatz in die KI-Videoerzeugung übernommen wird, spielt das Diffusion - Modell nicht mehr die führende Rolle, sondern wird zu einem wichtigen Bauteil in der industriellen Produktion.
Die Bedeutung von Seedance 2.0 liegt darin, dass dieser Ansatz auf eine neue Stufe gebracht wurde.
Wenn die Route "Prompt - Generierung - Fertiges Video" stabil genug ist, um als tägliches Werkzeug verwendet zu werden, entsteht für die Nutzer ein Moment der Wertschöpfung.
Es muss zugegeben werden, dass in kognitionsintensiven Bereichen wie der großen Sprachmodelltechnologie chinesische Modelle noch hinterherjagen;
aber in "prozessintensiven" Bereichen wie der KI-Videoerzeugung können sie unter dem Einfluss eines technischen Denkansatzes eher vorübergehend eine Führungsposition einnehmen.
Denn im ersten Fall geht es um die Erweiterung des Wissens und die maximale Inferenzfähigkeit, während im zweiten Fall es um technisches Urteilsvermögen, Effizienzkontrolle und die Fähigkeit zur Massenproduktion geht.
Wenn das Diffusion - Modell und der Transformer richtig aufgeteilt und in eine wiederverwendbare Produktionslinie integriert werden, wird die KI-Videoerzeugung keine technische Kuriosität mehr, sondern eine echte industrielle Fähigkeit.
Genau hier hat das chinesische Modell seinen Vorsprung erreicht.
Dieser Artikel stammt aus dem WeChat - Account "All - Weather Technology" (ID: iawtmt), Autor: Song He. Veröffentlicht von 36Kr mit Genehmigung.