Mit 500 US-Dollar wird der State-of-the-Art (SOTA) aufgebrochen, die Trainingskosten werden auf 1/200 reduziert, und ein chinesisches Team überholt das Paradigma der Videogenerierung.
Sie haben vielleicht von OpenAIs Sora gehört, einem KI-Video-Modell, das mit Millionen von Videos und Millionen von Dollar an Trainingskosten entwickelt wurde.
Können Sie sich aber vorstellen, dass ein Team mit nur 3.860 Videos und einem Budget von weniger als 500 US-Dollar auf wichtigen Aufgaben den aktuellen Stand der Technik (SOTA) erreicht?
Zum Beispiel bei der Generierung von Videos aus Bildern: Ein Kletterer klettert auf einem Asteroiden, wobei die menschliche Bewegung und die Weltraumlichter perfekt simuliert werden.
Die Erweiterung von Videos bereitet es auch keine Schwierigkeiten. Gegeben einen Anfangs- oder Endbildschirm, kann es ein Sparschwein direkt auf den Surfstränden von Tahiti surfen lassen.
Diese schönen Videos stammen aus dem neuesten Bild-Video-Generierungsmodell, das von Teams wie der City University of Hong Kong gemeinsam entwickelt wurde - Pusa V1.0.
Pusa V1.0 führt auf der Grundlage des großen Basis-Modells Wan2.1-T2V-14B einen Mechanismus der vektorisierten Zeitschrittanpassung (vectorized timestep adaptation, VTA) ein. Mit nur 3.860 Video-Text-Datenpaaren und einer Kosten von etwa 500 US-Dollar für die Feinabstimmung übertrifft es das Wan-I2V-14B bei der Bild-Video-Umwandlung (I2V), erreicht den SOTA und entsperrt viele Fähigkeiten für Zero-Shot-Aufgaben.
Der SOTA mit 500 US-Dollar
Wie oben erwähnt, wurde das Pusa V1.0 Text-Video-Modell (T2V) aus dem Wan-T2V-14B feinabgestimmt und für die Bild-Video-Generierung (I2V) verwendet.
Im Gegensatz zu anderen Feinabstimmungsmodellen, die die Architektur des Basis-Modells zerstören können, verwendet Pusa den VTA-Mechanismus, um eine minimale und nicht zerstörerische Optimierung zu erreichen, indem der Zeitschritt von einem Skalar auf einen Vektor erweitert wird. Es behält vollständig die vortrainierten Priors des Basis-Modells und ermöglicht ein effizienteres Lernen der Zeit.
Umfassende Aufgabenunterstützung
Dank seiner flexiblen Strategie der vektorisierten Zeitschrittanpassung kann Pusa mit nur 10 Inferenzschritten verschiedene Video-Generierungsaufgaben ausführen.
Diese Fähigkeiten sind seine "emergenten Eigenschaften" und können auf Aufgaben wie Bild-Video-Umwandlung, Start-End-Bildschirm, Videoerweiterung, Text-Video-Umwandlung und Videoübergänge in Zero-Shot-Manier (ohne spezifisches Training für die Aufgabe) erweitert werden.
Beispielsweise kann das Modell, mit 9 Anfangsbildschirmen (linkes Video) und 12 Endbildschirmen (rechtes Video) als Bedingungen, 60 dazwischenliegende Bildschirme generieren.
Oder geben Sie einfach Text ein, um das Modell zu veranlassen, ein Auto von goldener auf weiße Farbe zu ändern.
Wie macht VTA die Video-Generierung natürlicher?
Da Videos im Wesentlichen eine Reihe von Bildern sind, die mit einer festen Bildrate (z. B. 24 Bilder pro Sekunde bei Filmen) kontinuierlich abgespielt werden, zerlegt das Video-Diffusionsmodell (VDM) normalerweise das gesamte Video in Einzelbilder für die Modellierung.
In der herkömmlichen Methode teilen alle Bilder eine skalare Zeitschrittvariable, und das Modell führt für alle Bilder gleichzeitig die gleiche Stufe der Rauschunterdrückung durch. Dies bedeutet jedoch, dass alle Bilder während des Rauschunterdrückungsprozesses synchron evolvieren.
Somit kann das nachfolgende Bild keine Einschränkungsinformationen aus dem vorherigen Bild erhalten, was die Effekte der I2V (image-to-video) zu steif macht.
Darüber hinaus ist der Bild-Eingang im Gegensatz zu der unscharfen und abstrakten Text-Eingang ein starres Kriterium, das die "Startpunkte der Video-Generierung" sehr streng einschränkt. Das Modell muss während der Beibehaltung der Einschränkungen des Originalbildes selbst "raten", wie sich das Bild weiterbewegen wird.
Um also ein kohärentes und dynamisches Video zu generieren, sollten verschiedene Bilder mit unterschiedlicher Geschwindigkeit/Zeitstatus evolvieren, damit der Rauschunterdrückungsprozess der nachfolgenden Bilder möglichst von den Priors des vorherigen Bildes kontrolliert wird.
Deshalb schlägt die Studie VTA vor, indem für jedes Bild eine unabhängige Zeitkodierung eingeführt wird. Dies ermöglicht es dem Modell, den Rauschunterdrückungsprozess und die Zeitposition jedes Bildes präzise zu steuern, um die zeitliche Evolution der Bilder in der Realität besser zu simulieren und das generierte Video dynamischer und natürlicher zu gestalten.
Genauer gesagt ermöglicht VTA durch die rahmenbewusste Flussanpassung (Frame-Aware Flow Matching, FAFM), dass jedes Bild unabhängig evolviert, und verleiht dem Modell die Fähigkeit, synchrone und asynchrone Zeitstrukturen zu modellieren. Schließlich erreicht es eine effiziente, einheitliche und nicht zerstörerische Multi-Task-Video-Generierung, indem es benutzerdefinierte Zeit-Einbettungen in DiT injiziert.
Bei der Trainingsebene verwendet Pusa die rahmenbewusste Flussanpassung (FAFM) als Zielfunktion, um die ideale Geschwindigkeit der unabhängigen Evolution jedes Bildes auf der Zeitachse zu simulieren. Darüber hinaus wird die entsprechende Zeitkomponente des Startbildes während des gesamten Inferenzprozesses auf Null gesetzt, um das Startbild als Bedingungseinschränkung beizubehalten.
In der Modellarchitektur wird dieses Ziel durch die vektorielle Zeit-Einbettung in den DiT-Frame implementiert, um die dynamische Steuerung auf Rahmenebene während der Inferenz zu erreichen.
Bei der Inferenz ermöglicht Pusa die Angabe unterschiedlicher Zeitschritte für jedes Bild, um verschiedene Zeitsteuerungsstrategien wie die Fixierung des Startbildes, die Ergänzung des Endbildes und die Einschränkung von Schlüsselbildern zu realisieren. Diese Kombination aus Ziel und Mechanismus ist der Schlüssel dafür, dass Pusa nicht nur natürliche Ergebnisse generiert, sondern auch besser verallgemeinert werden kann.
Pusa V1.0 wird mit LORA + DeepSpeed Zero2 auf 8 GPUs mit 80 GB Arbeitsspeicher feinabgestimmt. Experimente zeigen, dass Pusa V1.0 das ebenfalls auf Wan-I2V-14B basierende Wan-I2V übertrifft und den SOTA erreicht.
Zugleich benötigt Pusa V1.0 um mehr als das 10-fache weniger Parameter-Updates als Wan-I2V, was darauf hinweist, dass Pusa sich nur auf zeitbezogene Module konzentriert und somit die Priors des Basis-Modells beibehält. Im Gegensatz dazu zeigt Wan-12V eine Zerstörung der Priors des Basis-Modells.
Man kann sagen, dass Pusa V1.0 ein skalierbares und vielseitiges Beispiel für die nachfolgende Video-Generierung mit minimalen Trainingskosten setzt.
Das Modell ist jetzt Open Source. Weitere Informationen finden Sie im Link am Ende des Artikels.
One More Thing
Laut der Dokumentation von Pusa stammt der Name des Modells aus dem chinesischen Begriff "Pusa" (Göttin der Barmherzigkeit).
Das Bild der Göttin mit vielen Armen symbolisiert ihre grenzenlose Barmherzigkeit und unendliche Fähigkeiten.
Das Team hat diesen Namen gewählt, um zu zeigen, dass das Modell mehrere Zeitschrittvariablen verwendet, um vielfältige Video-Generierungsfunktionen zu realisieren.
Ein kleineres Modell bedeutet, dass es schneller auf jedem Computer verfügbar sein kann. Erst wenn die Technologie tatsächlich jedem Schöpfer dient, wird es eine echte "Göttin der Barmherzigkeit".
Referenzlinks:
[1]Projekt-Website: https://yaofang-liu.github.io/Pusa_Web/
[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1
[3]arxiv:https://arxiv.org/abs/2410.03160
Dieser Artikel stammt aus dem offiziellen WeChat-Account "QbitAI", Autor: henry, veröffentlicht von 36Kr mit Genehmigung.