StartseiteArtikel

Das Videomodell unterstützt nativ die Übereinstimmung von Bewegungen, du weißt nur nicht, wie es richtig benutzt wird. Enthülle das Geheimnis des "ersten Frames".

新智元2025-11-28 10:45
FFGo aktiviert den Speicher der ersten Bildfolge des Videomodells und ermöglicht hochwertige Anpassungen.

Die neueste Methode FFGo hat unser Verständnis des ersten Frames in Videogenerierungsmodellen verändert. Der erste Frame ist nicht einfach nur der Startpunkt, sondern der "konzeptionelle Gedächtnispuffer" des Modells, in dem die visuellen Elemente der nachfolgenden Bilder gespeichert sind. FFGo aktiviert diese Fähigkeit des Modells durch wenige Beispiele und spezielle Trainingstechniken und ermöglicht so die hochwertige Videokustomisierung, ohne die Modellstruktur ändern oder eine große Menge an Daten verwenden zu müssen. Dies eröffnet eine neue Richtung für die Videogenerierung.

In einer Zeit, in der die Text-to-Video- und Image-to-Video-Technologien rasant voranschreiten, sind wir an folgende Tatsache gewöhnt:

Der erste Frame (First Frame) bei der Videogenerierung ist lediglich der Startpunkt der Zeitachse und das Anfangsbild der nachfolgenden Animation.

Aber die neuesten Forschungen der Universität von Maryland, der Universität von Südkalifornien und des Massachusetts Institute of Technology haben gezeigt: Die eigentliche Rolle des ersten Frames ist überhaupt nicht der "Startpunkt", sondern er ist tatsächlich der "konzeptionelle Gedächtnispuffer" (conceptual memory buffer) des Videomodells. Alle visuellen Entitäten, auf die die nachfolgenden Bilder verweisen, werden stillschweigend in diesem Frame gespeichert.

  • Link zur Studie: https://arxiv.org/abs/2511.15700
  • Projekt-Website: http://firstframego.github.io

Der Ausgangspunkt dieser Forschung liegt in der eingehenden Überlegung über ein weit verbreitetes, aber noch nicht systematisch untersuchtes Phänomen in Videogenerierungsmodellen.

Der zentrale Einblick der Studie ist sehr mutig: Das Videogenerierungsmodell "merkt" sich automatisch alle visuellen Entitäten wie Charaktere, Objekte, Texturen und Layouts im ersten Frame und wiederverwendet sie in den nachfolgenden Frames.

Mit anderen Worten: Unabhängig davon, wie viele Referenzobjekte Sie geben, packt das Modell sie im ersten Frame stillschweigend zu einem "konzeptionellen Blueprint" zusammen.

Die Forscher haben das Modell anhand von Videomodellen wie Veo3, Sora2 und Wan2.2 getestet und festgestellt:

Wenn im ersten Frame eine Kombination mehrerer Objekte vorhanden ist, kann das Modell in seltenen Fällen durch die Verwendung eines speziellen Übergangshinweises <transition> diese Objekte in den nachfolgenden Frames natürlich integrieren, sogar Übergänge zwischen verschiedenen Szenen ermöglichen und die Eigenschaften der Charaktere konsistent halten.

Aber dieser magische Übergangshinweis <transition> ist für jedes Modell und jedes zu generierende Video unterschiedlich. Darüber hinaus verursacht das Modell häufig Probleme wie den Verlust der Konsistenz von Objekten und Szenen oder das Verschwinden von Objekten, nachdem es mehrere Objekte in einem Übergang integriert hat.

Dies zeigt:

✔ Der erste Frame ist der Ort, an dem das Modell externe Referenzen "merkt".

❌ Aber standardmäßig ist diese Fähigkeit "instabil und unkontrollierbar".

Die FFGo-Methode

Ohne die Struktur zu ändern oder eine umfangreiche Feinabstimmung vorzunehmen, können Sie mit nur 20 - 50 Beispielen jedes vortrainierte Videomodell in ein leistungsstarkes "Referenzbild-gesteuertes Videokustomisierungssystem" verwandeln.

Basierend auf diesem Einblick haben die Forscher eine äußerst leichte Methode entwickelt: FFGo.

Die entscheidenden Vorteile haben die Branche schockiert:

✔ Es wird keine Modellstruktur geändert.

✔ Es werden keine Millionen von Trainingsdaten benötigt.

✔ Es werden nur 20 - 50 sorgfältig ausgewählte Videobeispiele benötigt.

✔ Einige Stunden LoRA-Training.

✔ Dadurch kann eine Videokustomisierung auf SOTA-Niveau erreicht werden.

Dies ist mit den bestehenden Methoden fast unvorstellbar.

Die Forscher haben sechs Anwendungsfälle aufgeführt:

  • Robotik-Manipulation (Robot Manipulation)
  • Autonomes Fahr-Simulation (Driving Simulation)
  • Luftaufnahmen / Unterwasser / Drohnen-Simulation (Aerial / Underwater)
  • Präsentation mehrerer Produkte
  • Film- und Fernsehproduktion
  • Generierung von Videos mit beliebigen Kombinationen mehrerer Charaktere

Benutzer müssen nur dem Modell ein erstes Frame mit mehreren Objekten/Charakteren und einen Textprompt geben. Dann kann FFGo das Modell dazu bringen, alle Elemente automatisch zu "merken" und ein interaktives Video zu generieren. Die Konsistenz der Bilder, die Identität der Objekte und die Kohärenz der Bewegungen sind sehr gut. Es unterstützt sogar die "Fusion von bis zu 5 Referenzentitäten gleichzeitig", während VACE/SkyReels-A2 auf maximal 3 beschränkt ist und Objekte einfach auslässt.

Technische Highlights

Automatische Erstellung von 20 - 50 hochwertigen Trainingssätzen mit VLM

Das Gemini-2.5 Pro erkennt automatisch Vordergrundobjekte, SAM2 extrahiert die RGBA-Maske, automatisch generierte Videotextdeskriptionen werden erstellt, um Trainingsbeispiele anzupassen, die in das Videomodell eingegeben werden können. Dies reduziert die manuelle Arbeit erheblich.

Aktivierung des "Gedächtnismechanismus" des Modells mit Few-shot LoRA

Die Forschung hat ergeben:

  • Das Modell hat von Natur aus die Fähigkeit, mehrere Referenzobjekte zu integrieren, aber diese Fähigkeit ist standardmäßig schwer "auszulösen".
  • Ein spezieller Prompt (z. B. "ad23r2 the camera view suddenly changes") kann als "Übergangssignal" fungieren.
  • LoRA lernt nicht eine neue Fähigkeit, sondern "wie diese Fähigkeiten ausgelöst werden können". Beim Inferenzprozess müssen nur die ersten 4 Frames (Komprimierungsframes von Wan2.2) verworfen werden.

Der eigentliche gemischte Inhalt des Videos beginnt ab dem 5. Frame. Die ersten 4 Frames sind Komprimierungsframes und können einfach verworfen werden.

Warum ist FFGo so leistungsstark?

Die Forscher haben zahlreiche Vergleichsexperimente durchgeführt:

✔ FFGo kann die Identität der Objekte konsistent halten (Identity Preservation).

✔ Es kann mehr Referenzobjekte verarbeiten (5 vs. 3).

✔ Es kann das "katastrophale Vergessen" vermeiden, das bei der Feinabstimmung großer Modelle auftritt.

✔ Die ausgegebenen Bilder sind natürlicher und kohärenter.

Insbesondere in Szenen mit mehreren Objekten und allgemeinen Szenen mit Interaktionen zwischen mehreren Objekten ist die Generierungsqualität von FFGo deutlich besser als die von VACE und SkyReels-A2.

Was bedeutet das "seltene Erfolgsresultat" des Basis-Modells?

Während der Forschung zu FFGo gibt es ein besonders wichtiges Experiment, das separat erwähnt werden muss: In seltenen und äußerst ungewöhnlichen Fällen kann das ursprüngliche I2V-Modell von Wan2.2 eine "perfekte" Aufgabe erfüllen:

  • Mehrere Referenzobjekte verschwinden nicht.
  • Die Übergänge zwischen den Szenen bleiben stabil.
  • Die Bewegungen sind kohärent und die Identität der Objekte bleibt konsistent.
  • Es stimmt gut mit dem Textprompt überein (z. B. die Bewegung eines Wingsuit-Flugers in Übereinstimmung mit einem Cybertruck).

Wenn Sie nur diese Ergebnisse betrachten, könnten Sie sogar meinen, dass das ursprüngliche Modell von Natur aus die Fähigkeit hat, mehrere Objekte stabil zu integrieren.

Aber tatsächlich ist es genau das Gegenteil. Die Bedeutung des Erfolgs liegt nicht darin, dass das Basis-Modell gut abschneidet, sondern darin: Das Basis-Modell hat diese Fähigkeit von Natur aus, aber in den meisten Fällen kann sie nicht stabil aktiviert werden.

Der Einblick des Forschungsteams wird hier bestätigt:

✔ Das Videogenerierungsmodell speichert tatsächlich mehrere Referenzentitäten in der internen Gedächtnisstruktur des ersten Frames.

✔ Das Videomodell kann von sich aus die Generierung von "mehreren Objekten + konsistenten Bewegungen" durchführen.

✔ Aber dieses Verhalten ist standardmäßig fast unkontrollierbar, instabil und schwer zu reproduzieren.

Das ist wie ein "versteckter GPU" im Modell, der manchmal aufleuchtet, aber Sie können sich nicht darauf verlassen, dass er rund um die Uhr funktioniert.

FFGo lehrt dem Modell keine neue Fähigkeit, sondern lässt es "stabil funktionieren"

Im obigen Vergleich sind die Ergebnisse von FFGo fast identisch mit den "seltenen Erfolgsresultaten" des ursprünglichen Modells. Dies zeigt: Das LoRA von FFGo überschreibt nicht das Modell, sondern aktiviert die vorhandenen potenziellen Fähigkeiten.

Mit anderen Worten: Das ursprüngliche Modell hat Potential, aber kann es nicht kontinuierlich ausspielen, während FFGo = das Potential in eine stabile Fähigkeit verwandelt (ohne das vortrainierte Wissen zu zerstören).

In der Studie wird erwähnt, dass FFGo die Generierungsqualität des ursprünglichen Modells beibehalten kann, anstatt