Peking University ByteDance veröffentlicht Open-Source-Video-Modell für spatio-temporales Schließen: Transparenter Denkprozess, Leistung übertrifft GPT-4!

Man kann Videos ansehen und die Position präzise markieren.

Die KI kann jetzt auch Wichtiges markieren beim Betrachten von Videos!

Sie kann nicht nur auf Fragen wie "Was ist das?" und "Was ist passiert?" antworten, sondern auch angeben, "wann und wo" etwas passiert ist.

Ein gemeinsames Team aus Peking-Universität und ByteDance hat das erste Open-Source-Modell namens Open-o3 Video entwickelt, das explizite raum-zeitliche Beweise in den gesamten Videoverarbeitungs-Prozess einbettet. Dadurch kann die KI nicht nur Fragen richtig beantworten, sondern auch während des Denkprozesses direkt die genaue Position anzeigen, was eine nachvollziehbare Videoverarbeitung ermöglicht.

△

Zusätzlich nutzt das Modell eine non-agent-Architektur, die komplexe Tool-Aufrufe und mehrstufige Inferenz vermeidet und in einer einzigen Antwort den geschlossenen Zyklus von "Sehen - Denken - Beweisen - Antworten" abschließt.

In mehreren Videoverarbeitungs-Tests konnte der Schlüsselindikator auf 24,2 % gesteigert werden, und die Leistung übertrifft bekannte Closed-Source-Modelle wie GPT-4o und Gemini-2-Flash.

Im Folgenden finden Sie weitere Details.

Forschungshintergrund

Videoverständnis ist eine der komplexesten Aufgaben in der Multimodal-Large-Language-Model (MLLM)-Forschung.

Im Gegensatz zu statischen Bildern beinhaltet ein Video sowohl dynamische Veränderungen in der Zeitdimension als auch Szeneninteraktionen in der Raumdimension.

Das bedeutet, dass das Modell nicht nur Objekte und Aktionen in den Bildern erkennen muss (Was), sondern auch feststellen muss, wann (When) und wo (Where) sie auftreten.

Kürzlich haben Modelle wie Video-R1 und VideoRFT die logische Konsistenz des Videoverständnisses durch Reinforcement Learning erheblich verbessert. Allerdings ist ihre Denk-Kette rein textbasiert. Das Modell kann möglicherweise die Frage richtig beantworten, aber es kann nicht auf das konkrete Bild verweisen, das die Antwort stützt.

Diese "Black-Box-Inferenz" macht die Urteile des Modells sowohl schwer zu erklären als auch zu überprüfen.

Außerdem hat das o3-Modell von OpenAI erstmals das Konzept von "Thinking with Images" eingeführt. Indem es Bilder in die Inferenz einbettet (z. B. markierte Bereiche, lokale Vergrößerungen, Zoom), kann das Modell visuelle Hinweise in der Denk-Kette natürlich nutzen und so eine "begründete Inferenz" erreichen.

Allerdings ist es schwieriger, dieses Konzept auf den Videobereich auszuweiten, d. h., dass das Modell sowohl zeitliche als auch räumliche Beweise in der Inferenz liefern muss:

1. Es ist schwierig, die Konsistenz zwischen Text, Zeitstempel und Objekt-Boxen in der Inferenz aufrechtzuerhalten.

Das Modell muss den Zeitpunkt des Ereignisses in Hunderten von Bildern genau ausrichten. Jede Abweichung kann zu logischen Fehlern in der Inferenz führen, was die Trainingsschwierigkeit erhöht.

Darüber hinaus ändert sich die Position desselben Objekts in verschiedenen Bildern stark, und das Modell muss die räumliche Position in der zeitlichen Dynamik kontinuierlich verfolgen.

2. Es fehlt eine starke raum-zeitliche Kopplungsüberwachung.

Die vorhandenen Daten bieten entweder nur Zeitraum-Markierungen (Temporal Grounding) oder nur räumliche Boxen für einzelne Bilder (Spatial Grounding). Es fehlen einheitliche raum-zeitliche Markierungen und die entsprechende Denk-Kette.

Modell-Trainingsverfahren

Ausgleich der Datenlücken

Daher liegt die grundlegende Schwierigkeit bei der Videoverarbeitung auf der Grundlage von raum-zeitlichen Positions-Hinweisen in den Daten.

Die vorhandenen Videoverständnis-Datensätze haben oft nur Zeit- oder Raumdimension-Markierungen, keine raum-zeitlich gekoppelten Denk-Ketten-Daten, was zu einer Spaltung zwischen den Modalitäten führt.

Das Team hat daher das erste einheitliche Korpus-System für explizite raum-zeitliche Inferenz namens STGR (Spatio-Temporal Grounded Reasoning) erstellt, das aus zwei Teilen besteht: STGR-CoT-30k und STGR-RL-36k.

Der erste Teil wird für die Supervised Fine-Tuning (SFT) verwendet, um dem Modell zu helfen, das Inferenz-Format und die Ausgabestruktur mit raum-zeitlichen Markierungen zu lernen. Der zweite Teil wird für die Reinforcement Learning-Phase (RL) verwendet, um ein hochwertiges Belohnungssignal bereitzustellen, um die raum-zeitliche Ausrichtung und die Beweisgenerierungsfähigkeit des Modells kontinuierlich zu optimieren.

△

Beide Datensätze enthalten vier Arten von Aufgaben: Zeitliche Positionsbestimmung; Räumliche Positionsbestimmung; Raum-zeitliche Positionsdaten und Videofragen-Antwort-Daten sowie die Datenverteilung.

Unter diesen wurden 5.900 hochwertige spatio-temporale Daten vom Team gemäß der in der Abbildung gezeigten Daten-Pipeline markiert. Der genaue Ablauf ist wie folgt:

1. Für zwei Datentypen (temporal grounding und plm-rdcap) wird Gemini 2.5 Pro verwendet, um die anfänglichen Markierungen vorzunehmen, um Frage-Antwort-Paare, anfängliche Schlüsselbilder, Zielerkennungs-Boxen und den Inferenzprozess zu generieren. Das Format für die explizite raum-zeitliche Positionsbestimmung lautet wie folgt:

"<obj>Objektname</obj><box>[x min, y min, x max, y max]</box>um <t>Zeitstempel</t>s"

2. Da die Qualität der von großen Modellen markierten Erkennungs-Boxen begrenzt ist, filtert das Team auf zwei Arten:

Entfernen von ungültigen Boxen mit einer zu großen Überdeckungsfläche (mehr als 80 % des Bildes);

Verifizieren, ob die Zielkategorie übereinstimmt, indem Qwen2.5-VL-7B verwendet wird. Beispielsweise wird die Abfrage "Ist dies ein Hund?" gestellt, um den Inhalt der Erkennungs-Box zu bestätigen.

3. Konsistenzprüfung: Umformulieren der Denk-Kette, um sicherzustellen, dass Fragen-Antworten, Zeitstempel, Objektnamen, Rahmen und Denk-Kette übereinstimmen, und Entfernen von überflüssigen oder inkonsistenten Stichproben.

Zweistufiges Trainingsverfahren

△

Nachdem das hochwertige raum-zeitliche Korpus die Grundlage gelegt hat, ist die zentrale Frage, wie das Modell tatsächlich lernt, "in Videos zu denken".

Das Team hat festgestellt, dass die Supervised Fine-Tuning-Alone nicht zufriedenstellende Ergebnisse erzielen kann. In der Supervised-Phase imitiert das Modell eher die Sprachmuster der menschlichen Markierer als die logische Beziehung zwischen visuellen Hinweisen und Inferenzstrukturen wirklich zu verstehen.

Um zu ermöglichen, dass das Modell aktive Schlüsselbeweise findet und nutzt, muss ein sich selbst korrigierendes Reinforcement Learning-Mechanismus eingesetzt werden, damit das Belohnungssignal direkt dessen "welches Bild betrachten, welchen Bereich beachten, was denken" steuert.

Dieses Konzept bildet den Kern des Trainings von Open-o3 Video: Ein zweistufiges Lernmechanismus - Cold-Start-Pretraining und Reinforcement Learning basierend auf GSPO.

In der Cold-Start-Phase wird das Modell zunächst mit den STGR-CoT-30k-Daten für die Supervised Fine-Tuning trainiert.

Das Ziel dieser Phase ist es, dem Modell das Inferenz-Format und die Ausgabespezifikationen beizubringen, d. h., wie es strukturierte Markierungen wie <obj>, <box> und <t> in der Antwort generiert und lernt, die Denk-Kette mit dem Videoinhalt zu korrelieren.

Diese Phase entspricht "Lehren des Modells, zu sprechen": Es lernt, visuelle Beweise mit Sprache zu beschreiben, hat aber noch keine spontane Beweissuchstrategie entwickelt.

Mit anderen Worten, die Cold-Start-Phase gibt dem Modell die "Fähigkeit, nachvollziehbare Antworten zu generieren", und die nächste Phase soll diese Fähigkeit genau, stabil und übertragbar machen.

In der zweiten Phase führt das Team das Reinforcement Learning-Framework GSPO ein.

Im Vergleich zum weit verbreiteten GRPO optimiert GSPO auf der Grundlage von Sequenzen, was die Stabilität des Langzeit-Trainings fördert und das Zusammenbrechen der Denk-Kette vermeidet.

In dieser Phase wird das Modell aufgefordert, in offenen Videoszenarien eine vollständige raum-zeitliche Inferenzsequenz zu generieren und sich dann durch die Belohnungsfunktion selbst zu korrigieren. Die Belohnungsfunktion besteht aus drei Teilen:

r_acc misst die Richtigkeit der Antwort; r_thk spiegelt die Rationalität und Vollständigkeit der Denk-Kette wider und ermutigt das Modell, visuelle Beweise bei der Generierung des Denktextes voll auszunutzen, z. B. durch die Berechnung von Metriken wie zeitlicher IoU und räumlicher IoU. r_fmt bewertet, ob das Inferenzformat den Spezifikationen entspricht.

Das Team betont besonders, dass eine einzelne Genauigkeitsbelohnung keine multimodale interpretierbare Inferenz unterstützen kann, da das Modell möglicherweise die Antwort "zufällig richtig" hat, aber die Schlüsselbilder ignoriert. Erst wenn der Inferenzprozess selbst zum Optimierungsziel wird, lernt das Modell tatsächlich, wie es in der visuellen Welt denkt.

Allerdings ist es eine große Herausforderung, die Positionsfähigkeit in beiden zeitlichen und räumlichen Dimensionen gleichzeitig durch Reinforcement Learning zu optimieren. Insbesondere ist zu beachten, dass die räumliche Belohnung (IoU) von der Genauigkeit der Zeitvorhersage abhängt.

Konkret gesagt, wenn die Zeitvorhersage falsch ist, kann auch eine korrekte räumliche Box nicht mit dem wahren Wert übereinstimmen. Das bedeutet, dass die Zeitvorhersage die Voraussetzung für die Trainingsstabilität ist.

Wenn jedoch in der Zeitbelohnungsvorhersage direkt strenge Zeitbeschränkungen verwendet werden, erhält das Modell in der Anfangsphase des Trainings oft keine Belohnung, was zum Lernstopp führt. Wenn immer lockere Beschränkungen verwendet werden, kann das Modell zwar Belohnungen erhalten, aber die Zeitbelohnung sättigt sich leicht, und die Vorhersage kann nicht allmählich auf die genaue Position konvergieren, so dass die Berechnung der räumlichen Belohnung immer noch ungenau ist.

Deshalb schlägt das Team einen adaptiven Zeitnähe-Mechanismus vor, d. h., dass der Toleranzbereich der Zeitbelohnung während des Trainings schrittweise angepasst wird. Die genaue Formel lautet wie folgt:

Im Laufe des Trainings wird die Standardabweichung allmählich verringert, um diese Konvergenz von "grober Positionsbestimmung" zu "genauer Positionsbestimmung" zu erreichen.

Zusätzlich stellt das Team einen Zeitgating-Mechanismus vor, d. h., bevor die räumliche Belohnung berechnet wird, wird zunächst überprüft, ob der vorhergesagte Zeitstempel in der Nähe des wahren Zeitstempels liegt. Nur wenn die Zeitvorhersage nahe am wahren Wert liegt (kleiner als der festgelegte Schwellenwert), wird die IoU zwischen der vorhergesagten Box und der wahren Box für den entsprechenden Frame berechnet. Andernfalls beträgt die räumliche Belohnung 0.

Durch dieses Trainingsverfahren und die Belohnungsgestaltung kann das Modell auf eine stabilere und effizientere Weise trainiert werden.

Inferenzver

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Peking University ByteDance hat das erste Video-Modell für spatio-temporales Schließen open source veröffentlicht. Der Denkprozess ist vollständig transparent, und die Leistung übertrifft GPT-4.

Forschungshintergrund

Modell-Trainingsverfahren

Ausgleich der Datenlücken

Zweistufiges Trainingsverfahren

Inferenzver