Reiner Text-getriebene Videobearbeitung: Tsinghua-Universität, Huawei & Universität von Wissenschaft und Technologie Chinas - Präzises Entfernen/Hinzufügen von Objekten ohne Masken oder Referenzbilder

Lassen Sie das Modell das "implizite Lokalisieren" während der Trainingsphase lernen.

In den letzten Jahren haben die neuesten Fortschritte bei diffusionsbasierten Videogenerierungsmodellen die Realismus und Steuerbarkeit der Videoedierung erheblich verbessert. Dennoch stehen der textgesteuerten Entfernung und Hinzufügung von Videoobjekten immer noch großen Herausforderungen gegenüber:

Es ist nicht nur erforderlich, das Zielobjekt präzise zu lokalisieren, sondern auch die Hintergrundkontinuität, die zeitliche Konsistenz und die semantische Übereinstimmung aufrechtzuerhalten.

Die meisten bestehenden Methoden müssen bei der Inferenz auf von Benutzern bereitgestellte Masken oder Referenzbilder zurückgreifen, um den Bearbeitungsbereich zu bestimmen. Dies erhöht nicht nur die Nutzungsschwelle, sondern beschränkt auch die Praktikabilität und Generalisierungsfähigkeit des Modells in realen Szenarien.

Um die oben genannten Probleme zu lösen, hat ein Team aus Tsinghua-Universität, Huawei und der Universität von Wissenschaft und Technologie Chinas LoVoRA (Learnable Object-aware Localization for Video Object Removal and Addition) vorgeschlagen – ein echtes textgesteuertes Framework für die Entfernung und Hinzufügung von Videoobjekten, das keine Masken und Referenzbilder erfordert.

LoVoRA kann den Bearbeitungsbereich allein anhand von Textaufforderungen präzise lokalisieren und zeitlich konsistente und natürlich wirkende Videoedierungen durchführen, ohne dass irgendeine manuelle Maske oder externe Steuersignale erforderlich sind. Zahlreiche Experimente und Benutzerbewertungen zeigen, dass LoVoRA in Bezug auf Bearbeitungsqualität, Hintergrundkonsistenz und zeitliche Stabilität alle bestehenden Basismethoden übertrifft.

Datensatzaufbau

Die bestehenden auf Anweisungen basierenden Videoedierungsdatensätze, wie InsViE, Ditto, Senoritia, ICVE - SFT usw., ermöglichen fortschrittliche textgesteuerte Videooperationen.

Dennoch weisen sie einige Einschränkungen auf: niedrige räumliche und zeitliche Auflösung; Hintergrundinkonsistenzen aufgrund der frameweisen Generierung; und begrenzte Abdeckung von Szenarien zur Objekthinzufügung und -entfernung.

Um diese Probleme zu überwinden, hat das Team einen hochwertigen Datensatz erstellt, der speziell für die objektbezogene Hinzufügung und Löschung in Videos geeignet ist und die Grundlage für das Framework bildet. Der Datensatz basiert auf dem hochauflösenden Bildbearbeitungsdatensatz NHR - Edit und wird über eine mehrstufige Pipeline zu zeitlich konsistenten Videoedierungssequenzen synthetisiert.

Im Vergleich zu früheren Arbeiten bietet der Datensatz eine bessere Hintergrundkonsistenz, genaue objektbezogene raum - zeitliche Masken und robuste Textanweisungen, die mit der Bearbeitungssemantik übereinstimmen. Darüber hinaus bietet er eine dichte Bewegungsmaskenüberwachung, die die objektorientierte Bearbeitungslokalisierung in LoVoRA trainieren und evaluieren lässt.

Gegeben ein Paar hochwertiger Bildbearbeitungstriple Is, It, p (Quellbild, Zielbild und Bearbeitungsanweisung), wird es durch eine einheitliche mehrstufige Synthese - Pipeline in ein Videoedierungspaar Vs, Vt mit raum - zeitlicher Überwachung umgewandelt:

a. Ein textbasierter Bild - zu - Video - Generator (Wan2.2) erweitert das Einzelbild zu einem zeitlich zusammenhängenden Quellvideo Vs, wobei die Szenenbeschreibung pscene von InternVL3 extrahiert wird, um die anfängliche Übereinstimmung von Text und visueller Semantik sicherzustellen, während die Szenenlayout und die Hintergrundkonsistenz beibehalten werden;

b. Anschließend wird die Objektlokalisierung für die Bearbeitungsanweisung im ersten Frame des Quell -/Zielbildes durchgeführt: Das Zielbounding - box wird durch Grounding - DINO ermittelt, und SAM2 wird aufgerufen, um eine hochwertige binäre Segmentierungsmaske zu extrahieren. Nach einer morphologischen Glättung erhält man die Anfangsmaske M1.

c. Um diese statische Maske zu einem zeitlichen Maskenfluss für das gesamte Video zu erweitern, wird GMFlow verwendet, um den dichten optischen Fluss des Quellvideos zu schätzen, und die Maske wird durch rückwärtsgerichteten optischen Fluss zusammengefügt und propagiert. Gleichzeitig wird eine bidirektionale Flusskonsistenzprüfung eingeführt, um Verdeckungen und Verschiebungsfehler zu behandeln, wodurch eine glatte und mit der Bewegung übereinstimmende Maskensequenz {Mt}Tt = 1 erhalten wird.

d. Schließlich wird basierend auf dem erhaltenen Maskenfluss, dem Quellvideo und der Textanweisung VACE verwendet, um das bearbeitete Video Vt zu generieren. Dieser Schritt gewährleistet sowohl die semantische Änderung des bearbeiteten Bereichs (Objektentfernung oder -einfügung) als auch die globale Konsistenz des Hintergrunds und der Bewegung.

Um die Stabilität der Semantik und Qualität zu gewährleisten, generiert die gesamte Pipeline automatisch Textanweisungen über InternVL3 und prüft sie. Für die generierten Stichproben werden Schwellenwerte für Fläche und Bewegungsamplitude angewendet (d. h., es wird sichergestellt, dass die Maskenfläche und die Videobewegung in einem vernünftigen Bereich liegen), um Stichproben mit schwachen Signalen auszuschließen.

Der schließlich erstellte Datensatz enthält alle erforderlichen Informationen für jedes Paar Vs, Vt, p: zeitliche Masken, pixelgenaue optische Flüsse und semantisch übereinstimmende Anweisungstexte. Diese dichte raum - zeitliche und semantische Überwachung bietet die entscheidende Unterstützung für das Training der lernbaren Lokalisierungs - und Bearbeitungsmodule von LoVoRA.

△

Modell

△

Das Kerngedanke von LoVoRA besteht darin, in einem einheitlichen End - to - End - Framework die Entfernung und Hinzufügung von Videoobjekten allein durch Text zu ermöglichen, ohne auf Masken, Referenzbilder oder manuelle Steuersignale während der Inferenz angewiesen zu sein.

Um dies zu erreichen, hat das Team eine Videoedierungsarchitektur basierend auf einem raum - zeitlichen VAE und 3D DiT erstellt: Das Modell kodiert zunächst das Eingabevideo in den latenten Raum, empfängt gleichzeitig die latenten Variablen des Originalvideos und die Rauschlatentenvariablen über die Kanalverknüpfungsmethode, und dann wird der latente Raum von 3D DiT unter der multimodalen Führung der Textanweisung schrittweise strukturiert rekonstruiert, um ein bearbeitetes Video zu generieren, das semantisch übereinstimmend und die Bewegung natürlich darstellt.

Diese Architektur kann gleichzeitig räumliche Details, zeitliche Konsistenz und TextSemantik modellieren, sodass LoVoRA die Hintergrundstruktur und die zeitliche Kohärenz in komplexen Szenarien aufrechterhalten kann.

Allein der Text reicht nicht aus, um dem Modell zu ermöglichen, zuverlässig zu entscheiden, "wo bearbeitet werden soll". Daher wurde ein leichtgewichtiges lernbares Objektlokalisierungsmechanismus, der Diffusion Mask Predictor (DMP), vorgeschlagen.

Dieses Modul lernt aus den mittleren Merkmalen von DiT, eine zeitlich veränderliche Weichmaske vorherzusagen, die angibt, welche Bereiche am relevantesten für die aktuelle Bearbeitung sind. Indem es während des Trainings die zeitlichen Maskenüberwachung aus dem Datensatz nutzt, lernt DMP allmählich, die Bearbeitungsfähigkeit des Modells auf das Zielobjekt zu konzentrieren. Im Inferenzstadium kann es die automatische Lokalisierung ohne irgendeine explizite Maske erreichen. Dieser Mechanismus vermeidet effektiv die Probleme der Über - oder Unterbearbeitung bei herkömmlichen Methoden und verbessert deutlich die räumliche Genauigkeit und die zeitliche Stabilität.

In Kombination mit diesen beiden Aspekten ermöglicht LoVoRA echte textgesteuerte und vollständig maskenfreie Videoobjektbearbeitung. Die Basisarchitektur gewährleistet die Natürlichkeit und Konsistenz des gesamten Videos, während die lernbare Objektlokalisierung es dem Modell ermöglicht, die TextSemantik präzise zu verstehen und sich auf die Schlüsselbereiche zu konzentrieren. Dadurch kann es in beiden Aufgabenarten, der Objektentfernung und -hinzufügung, hochwertige, semantisch übereinstimmende und zeitlich stabile Videorechte erzeugen.

Experimente und Analysen

Quantitative Analyse: In den kombinierten Tests von DAVIS und LoVoRA - Bench führt LoVoRA in allen wichtigen Indikatoren wie Textübereinstimmung, Videoqualität und VLM - Bewertung (einschließlich Prompt Following und Edit Quality) die führenden Videoedierungsmethoden an.

Ob bei der Objektentfernung oder -hinzufügung, LoVoRA erzielt in den meisten Indikatoren die besten oder zweitbesten Ergebnisse, was seine deutlichen Vorteile in Bezug auf semantische Konsistenz, objektbezogene Operationsgenauigkeit, Hintergrundstabilität und Bewegungsfortsetzung zeigt.

Im Gegensatz zu Modellen wie Ditto, die auf die Verbesserung des Aussehens abzielen, aber leicht die lokale Genauigkeit opfern, verbessert LoVoRA die Steuerbarkeit der Bearbeitung deutlich, während es die Ästhetik des gesamten Bildes beibehält. Im Vergleich zu Senorita, das auf Referenzbilder angewiesen ist, zeigt LoVoRA auch ohne Hilfseingaben eine hohe Wettbewerbsfähigkeit, was die Wirksamkeit des lernbaren Lokalisierungsmechanismus beweist. Insgesamt bestätigen die quantitativen Indikatoren die starke Leistung von LoVoRA in Bezug auf Textverständnis, Lokalisierungsgenauigkeit und Bearbeitungsqualität.

Qualitative Analyse: Aus den visuellen Ergebnissen kann man die präzise Lokalisierung und natürliche Bearbeitung von Objekten durch LoVoRA in komplexen Szenarien beobachten. Bei der Entfernung von Objekten kann LoVoRA das Zielobjekt sauber entfernen, fast ohne Nachbilder oder strukturelle Schäden, und gleichzeitig die ursprüngliche Textur, Beleuchtung und Hintergrundgeometrie vollständig bewahren;

Bei der Hinzufügung von Objekten kann das eingefügte Objekt in Farbe, Licht und Schatten, Perspektive und Bewegungsverlauf nahtlos in die Umgebung integriert werden, selbst in schwierigen Szenarien wie Verdeckungen und schnellen Bewegungen bleibt es stabil. Viele Basismethoden weisen häufig Probleme wie unscharfe Grenzen, Hintergrundverzerrungen, zeitliche Sprünge oder Bearbeitungsbereichsverschiebungen auf - diese Probleme werden in LoVoRA verbessert, was einen höheren Realismus und eine bessere Konsistenz zeigt.

Fazit

LoVoRA bietet ein zukunftsträchtiges Videoedierungsverfahren: Ohne irgendeine manuelle Maske kann allein durch eine natürliche Sprache eine genaue, natürliche und zeitlich konsistente Videoänderung auf Objektebene durchgeführt werden.

In Kombination mit dem neu erstellten Datensatz und der lernbaren Objektlokalisierungsstrategie hat LoVoRA in Bezug auf Semantikverständnis, räumliche Genauigkeit und zeitliche Stabilität führende Ergebnisse erzielt und alle bestehenden anweisungsbasierten Videoedierungsmodelle übertroffen.

Die Forschung zeigt, dass es ein wirksamer Weg ist, dem Modell während des Trainings "implizite Lokalisierung" beizubringen, um eine universelle, hochsteuerbare und erweiterbare Videoedierung zu erreichen. Dies legt auch die Grundlage für zukünftige Videoedierungs - und Kreativwerkzeuge für die offene Welt.

Publikationsadresse: https://arxiv.org/abs/2512.02933

Projektadresse: https://github.com/cz - 5f/LoVoRA.github.io

Datensatz: https://huggingface.co/datasets/cz - 5f/LoVoRA

Dieser Artikel stammt aus dem WeChat - Publikationskanal

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Reiner Text-getriebene Videobearbeitung: Tsinghua-Universität, Huawei und Universität von Wissenschaft und Technologie Chinas schaffen es, Objekte präzise zu entfernen oder hinzuzufügen, ohne Masken oder Referenzbilder zu benötigen

Datensatzaufbau

Modell

Experimente und Analysen

Fazit