Netflix veröffentlicht Videomodell: Nicht nur "Löschen", sondern "Überschreiben" der physischen Welt

Netflix hat das VOID-Framework vorgeschlagen, um die Entfernung von Videobjekten mit physischer Interaktionswahrnehmung zu ermöglichen.

Das Entfernen von Objekten aus Videos ist eine grundlegende Aufgabe im Video-Editing. Bestehende Methoden haben sich bereits bei der Bearbeitung von "einfachen" Entfernungsszenarien bewährt, wie z. B. das Auffüllen des Hintergrunds hinter einem entfernten Objekt oder das Eliminieren von Schatten und Spiegelungen.

Doch hier stellt sich die Frage: Was passiert, wenn das zu entfernende Objekt mit anderen Objekten in der Szene in physikalischer Wechselwirkung steht?

Stellen Sie sich vor, eine Reihe von Dominosteinen fällt nacheinander um. Wenn wir mit einem Video-Reparaturmodell einige Steine in der Mitte entfernen, würden bestehende Methoden die hinteren Steine weiterhin fallen lassen, was aber physikalisch unmöglich ist, da es keine Steine mehr gibt, die sie stoßen können. Ein weiteres Beispiel: Eine Person dreht einen Kreisel mit der Hand. Wenn wir die Hände entfernen, sollte der Kreisel weiterhin drehen, anstatt plötzlich zu verschwinden oder anzuhalten.

Diese Szenarien erfordern von Modellen die Fähigkeit zur kausalen Inferenz: Sie müssen nicht nur das Objekt "entfernen", sondern auch ableiten, "wie sich die gesamte Szene entwickelt hätte, wenn dieses Objekt nie existiert hätte". Dies ist die Fähigkeit, die aktuelle Video-Editierungsmodelle allgemein fehlen.

In dieser Arbeit haben das Netflix-Team und seine Partner das Framework "Video Object and Interaction Deletion" (VOID) vorgeschlagen.

Link zur Studie: https://arxiv.org/pdf/2604.02296

VOID entfernt nicht nur das Zielobjekt, sondern kann auch die physikalischen Kettenspieleffekte, die durch seine Entfernung ausgelöst werden, sinnvoll modellieren. Das Framework enthält drei Kerninnovationen: die Erstellung eines kontrafaktischen Datensatzes auf der Grundlage eines physikalischen Simulationsmoduls, eine interaktionssensible "Vier-Werte-Maske" (Quadmask)-Konditionierungsstrategie und die automatische Erkennung betroffener Bereiche bei der Inferenz mithilfe eines visuell-sprachlichen Modells (VLM).

Es ist erwähnenswert, dass VOID auf dem Videogenerierungsmodell CogVideoX von Zhipu basiert und für Videoreparaturaufgaben mit interaktionssensitiven Maskenbedingungen feinjustiert wurde.

Die Forschungsergebnisse zeigen, dass VOID in der menschlichen Präferenzbewertung in 64,8 % der Fälle als SOTA-Ergebnis ausgewählt wurde, weit vor dem zweiten Platz von Runway mit 18,4 %.

Zugleich hat VOID auch die Fähigkeit gezeigt, auf physikalische Effekte zu generalisieren, die in den Trainingsdaten nicht aufgetreten sind, wie z. B. "die Luftballons schweben weg, nachdem der Bär, der die Luftballons hält, entfernt wurde" oder "der Mixer startet nicht, nachdem die Person, die den Mixerknopf drückt, entfernt wurde". Dies zeigt, dass VOID nicht einfach die Trainingsbeispiele auswendig lernt, sondern die Fähigkeit erworben hat, die physikalische Intuition des zugrunde liegenden Modells für die Inferenz zu nutzen.

Insgesamt bietet diese Arbeit einen wichtigen Anhaltspunkt für die Entwicklung von Video-Editierungsmodellen in Richtung "Welt-Simulator".

"Video-Entfernung" mit besserem Verständnis für Physik

VOID baut auf dem CogVideoX DiT-Skelett auf und wird mit den vortrainierten Gewichten von Generative Omnimatte initialisiert, wodurch es die Fähigkeit zur hierarchischen Entkopplung von Objekten und Effekten erbt.

Basierend darauf hat das Forschungsunternehmen die Feinjustierung mit kontrafaktischen Datensätzen und Vier-Werte-Masken durchgeführt, um das Modell lernen zu lassen, physikalisch sinnvolle neue Bewegungsbahnen zu generieren, nachdem ein Objekt entfernt wurde.

Der Gesamtablauf von VOID ist wie folgt: Der Benutzer liefert ein Video und gibt das zu entfernende Objekt an. Das System leitet automatisch ab, welche Bereiche sich aufgrund des Verschwindens des Objekts ändern werden, und generiert dann ein physikalisch sinnvolles kontrafaktisches Video.

Abbildung | Schematische Darstellung von VOID

1. Generierung von Vier-Werte-Masken bei der Inferenz, geleitet durch VLM

Bei der Inferenz muss der Benutzer nur einfach auf das Zielobjekt klicken. Das System analysiert die Szene mithilfe eines visuell-sprachlichen Modells (VLM) und leitet automatisch ab, welche Objekte betroffen sein werden und wo sie in der kontrafaktischen Szene erscheinen werden. Der genaue Ablauf ist wie folgt:

1) Das VLM erhält das Video und die Objektmaske und gibt eine Liste von Beschreibungen der betroffenen Objekte aus.

2) Es wird SAM 3 verwendet, um die betroffenen Objekte zu segmentieren und ihre ursprünglichen Positionsmasken zu erhalten.

3) Ein räumliches Gitter wird auf das Video gelegt, und das VLM prognostiziert die neuen Positionen dieser Objekte in der kontrafaktischen Szene.

4) Die beiden Gruppen von Masken werden kombiniert, um die endgültige Vier-Werte-Maske zu generieren.

2. Zweistufige Inferenz

Basierend auf der generierten Vier-Werte-Maske generiert VOID das endgültige Ergebnis durch eine zweistufige Inferenz.

Erste Stufe: Synthese kontrafaktischer Bahnen. Das Modell generiert auf der Grundlage des Eingabevideos und der Vier-Werte-Maske eine vorläufige kontrafaktische Vorhersage. Diese Stufe kann die in der großen Richtung richtigen Bewegungsannahmen erfassen, wie z. B. dass ein Objekt, das seine Stütze verliert, anfängt, frei zu fallen. Da das Video-Diffusionsmodell jedoch bei der Generierung komplexer Bewegungen leicht Probleme wie die Verformung von Objekten auftreten kann, ist eine weitere Optimierung erforderlich.

Zweite Stufe: Strömungsfeld-geleitete Rauschstabilisierung. Inspiriert von der Go-with-the-Flow-Methode extrahiert VOID aus der Ausgabe der ersten Stufe das Strömungsfeld, verwendet es, um zeitlich korrelierte verzerrte Rauschen zu generieren und gibt es dann als Eingabe für die zweite Stufe. Dies ermöglicht es dem Diffusionsmodell, entlang der richtigen Bahn konsistent zu entrauschen und reduziert die Verformung von Objekten erheblich. Das VLM entscheidet automatisch, ob die zweite Stufe ausgelöst werden muss (nur bei der Erkennung starker dynamischer Änderungen aktiviert).

Forschungsergebnisse

Experimente mit realen und synthetischen Daten haben gezeigt, dass diese Methode im Vergleich zu bestehenden Methoden zur Entfernung von Videoobjekten die Dynamik der Szene nach der Entfernung des Objekts besser konsistent halten kann.

1. Bewertung von echten Weltvideos

Da es für echte Weltvideos keine "richtigen Antworten" gibt, hat das Forschungsunternehmen verschiedene Bewertungsarten eingesetzt.

Menschliche Präferenzstudie: 25 Teilnehmer haben jeweils 5 Szenarien bewertet und das beste Ergebnis aus den Ausgaben von 7 Modellen ausgewählt. Die Ergebnisse zeigen, dass VOID mit einer Gewinnquote von 64,8 % das SOTA-Ergebnis erzielt hat, auch wenn Runway zusätzliche Texteinweisungen zur Beschreibung der erwarteten Szenenänderungen erhalten hat.

Bewertung durch VLM-Richter: Das Forschungsunternehmen hat drei VLM, nämlich Gemini 3 Pro, GPT-5.2 und Qwen 3.5-32B, als automatische Richter eingesetzt, um die Leistung in Bezug auf die interaktive Physik, die Entfernung von Objekten, die zeitliche Konsistenz und die Beibehaltung der Szene zu bewerten. In allen drei Bewertungen durch die Richter hat VOID die höchsten Gesamtpunkte erzielt. Der Vorteil in der Dimension "interaktive Physik" war besonders deutlich. Bei der Bewertung durch Gemini 3 Pro erreichte VOID einen Punktwert von 3,66, während Runway auf Platz zwei nur 2,61 erreichte.

Qualitative Gegenüberstellung: In mehreren realen Szenarien sind die Basismethoden auf verschiedene Probleme gestoßen: In Kollisionsszenarien wurden die Objekte nicht richtig entfernt, Kissen blieben nach der Entfernung einer schweren Last eingedrückt, und es erschien weiterhin frische Farbe auf der Wand, nachdem die Farbrolle entfernt wurde. VOID hat in allen Fällen die richtige physikalische Inferenz gezeigt.

Generalisation auf unbekannte Effekte: In Bezug auf die Generalisierungsfähigkeit hat VOID verschiedene Interaktionstypen erfolgreich behandelt, die in den Trainingsdaten nie aufgetreten sind. Wie in der folgenden Abbildung gezeigt: Nachdem der Cartoon-Bär, der die Luftballons hält, entfernt wurde, schweben die Luftballons nach oben weg; nachdem das Kind, das den Mixerknopf drückt, entfernt wurde, startet der Mixer nicht mehr; nachdem der Hund, der den Stock beißt, entfernt wurde, fällt der Stock natürlich herunter; nachdem das Gummientehindernis entfernt wurde, ändert der Ball seine Rollbahn usw.

2. Bewertung von synthetischen Datensätzen

Auch auf einem synthetischen Benchmark, der 10 klassische Fälle zur Entfernung von Schatten/Spiegelungen und 30 Fälle mit dynamischen Interaktionen enthält, hat VOID SOTA-Fähigkeiten gezeigt.

Beispielsweise war VOID in allen Metriken außer LPIPS am besten. Es ist zu beachten, dass LPIPS empfindlich auf lokale Verschiebungen reagiert - wenn das Modell das Herunterfallen eines Objekts richtig simuliert, aber die Geschwindigkeit etwas abweicht, kann es möglicherweise einen niedrigeren Punktwert erhalten als ein Modell, das das Objekt einfach löscht. Bei den videoebenen Metriken FVD und den Punkten der VLM-Richter war die Differenz zwischen VOID und der Basis am deutlichsten, was die Vorteile von VOID in Bezug auf die physikalische Plausibilität und die semantische Konsistenz eindrucksvoll belegt.

Darüber hinaus haben Ablationsstudien an 75 echten Welt-Testfällen gezeigt, dass die Vielfalt der Kombination von zwei Datensätzen (auch wenn die Gesamtmenge gleich bleibt) der eines einzelnen Datensatzes überlegen ist; die feine Vier-Werte-Maske in Kombination mit dem VLM-geleiteten Maskengenerierungsablauf ist der groben globalen Maskenstrategie deutlich überlegen.

Einschränkungen und zukünftige Perspektiven

Obwohl VOID eine starke Generalisierungsfähigkeit gezeigt hat, gibt es auch einige Einschränkungen bei dieser Studie. Folgende:

Domänenunterschiede: Die Leistung nimmt ab, wenn der Kamerawinkel des Testvideos ungewöhnlich ist oder sich die Kamera zu nahe am Objekt befindet.
Beschränkung der Datenquelle: Derzeit stammen alle Trainingsdaten aus Rendering-Engines. In Zukunft können verschiedene Methoden zur Datenerfassung erkundet werden.
Videolänge und Auflösung: Die generierten Videos sind immer noch auf eine Länge von wenigen Sekunden beschränkt, und es besteht auch Raum für Verbesserungen bei der Auflösung.

Das Forschungsunternehmen hat angegeben, dass mit der Entwicklung stärkerer Videogenerierungsmodelle und VLM die Leistung dieses Frameworks möglicherweise weiter verbessert werden kann. Noch wichtiger ist, dass diese Arbeit eine interessante und bisher nicht ausreichend erforschte Richtung aufgedeckt hat, nämlich wie die starke Fähigkeit zur Weltmodellierung auf den Bereich des Video-Editings übertragen werden kann.

Dieser Artikel stammt aus dem offiziellen WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Netflix hat auch ein Videomodell veröffentlicht: Es geht nicht nur um "Löschen", sondern um "Überschreiben" der physischen Welt.

"Video-Entfernung" mit besserem Verständnis für Physik

Forschungsergebnisse

1. Bewertung von echten Weltvideos

2. Bewertung von synthetischen Datensätzen

Einschränkungen und zukünftige Perspektiven