VLM-Migration + Token-Level-Alignierung: Lösung für physikalische Fehler beim Videogenerieren, akzeptiert von CVPR 2026 mit fast perfekter Note

Hat die KI endlich gelernt, den physikalischen Gesetzen zu folgen?

Wenn die Menschen über "Weltmodelle" (World Models) sprechen, denken viele zuerst an die in den letzten Jahren rapide entwickelten generativen Videomodelle.

Von dem generischen Generativmodell Wan bis hin zum Videoweltmodell Cosmos von NVIDIA können diese Modelle bereits dynamische Szenen mit äußerst realistischen und hochwertigen visuellen Effekten generieren, die aussehen, als wären es Aufnahmen aus der realen Welt.

In vielen Fällen ist diese Fähigkeit bereits erstaunlich genug:

Das Modell kann Wellen, die an die Küste brechen, brennende Flammen, fahrende Fahrzeuge und sogar komplexe menschliche Aktivitäten generieren. Aus visueller Sicht scheint es, als hätten sie die Funktionsweise der Welt "gelernt".

Wenn man jedoch diese Videos genauer betrachtet, wird ein interessantes Phänomen deutlich:

Sie sehen zwar real aus, verstehen aber möglicherweise nicht wirklich die physische Welt.

Beispielsweise kann man in einigen generierten Videos sehen:

Honig, der aus dem Nichts entsteht und sich ständig ausbreitet;

Axtschläge beim Holzschlagen, die nicht synchron sind; …

Diese Details, die gegen den gesunden Menschenverstand verstoßen, offenbaren ein Schlüsselproblem:

Die bestehenden Videogenerativmodelle bleiben im Wesentlichen auf der Ebene der "Optikangleichung" und nicht auf der Ebene der echten "physikalischen Modellierung".

Mit anderen Worten können sie "physikalisch aussehende" Bilder generieren, verstehen aber möglicherweise nicht wirklich:

Warum sich Objekte bewegen
Wie Kräfte übertragen werden
Wo physikalische Phänomene auftreten sollten

Dies führt zu einer immer stärker beachteten Frage:

Simuliert das generative Videomodell wirklich die Welt oder imitiert es sie nur?

Um diese Engstelle zu überwinden, haben die Sun Yat - sen-Universität und die MBZUAI und andere Institutionen gemeinsam ProPhy vorgeschlagen. Diese Arbeit hat einen brandneuen progressiven physikalischen Ausrichtungsrahmen aufgebaut, der dem Videodiffusionsmodell erstmals die Fähigkeiten der "schichtweisen physikalischen Verständnis" und der "räumlichen physikalischen Ausrichtung" verleiht – es kann nicht nur beurteilen, welche physikalischen Phänomene auftreten sollten, sondern auch die genaue Position bestimmen, an der die physikalischen Phänomene im Bild auftreten sollten. Die Einführung von ProPhy markiert den Übergang des Videogenerativmodells von der "visuellen Realität" zur "physikalischen Konsistenz" und einen wichtigen Schritt in Richtung eines echten "Welt - Simulators".

Derzeit wurde dieser Artikel von CVPR2026 mit fast voller Punktzahl akzeptiert. Der Artikel und der Code des Projekts sind beide Open Source:

Überlegung: Warum kann das Videomodell die Physik nicht lernen?

Obwohl die bestehenden Modelle in Bezug auf die visuelle Realität enorme Fortschritte gemacht haben, scheitern sie immer wieder in Bezug auf die physikalische Konsistenz. Der Artikel zeigt, dass die bestehenden Methoden zwei grundlegende Engstellen haben:

1. Mangel an expliziter physikalischer Modellierung: Die meisten aktuellen Methoden verlassen sich auf implizites Lernen oder verwenden nur grob granulierte globale physikalische Kategorielabels zur Unterstützung. Diese Art und Weise lässt das Modell im Wesentlichen nur "Phänomene imitieren", ohne dass es wirklich unterscheidbare und kombinierbare physikalische Priors bildet. Mit anderen Worten kann das Modell möglicherweise Bilder generieren, die "wie Brennen" oder "wie Kollision" aussehen, versteht aber nicht wirklich: Was sind die Unterschiede zwischen verschiedenen physikalischen Gesetzen; Wie sollten verschiedene physikalische Phänomene in der realen Welt sich entwickeln. Das Ergebnis ist – die physikalischen Gesetze bleiben im Modell noch immer unscharf, gemischt und nicht zerlegbar.

2. Mangel an feingranulierter räumlicher Ausrichtung: Physikalische Phänomene in der realen Welt treten oft in lokalen Bereichen auf (Flammen brennen an der Brennstelle, Wasser spritzt an der Kontaktstelle), aber das Modell reagiert oft "isotrop" und fehlt eine differenzierte Modellierung der räumlichen Bereiche, so dass es nicht in der Lage ist, die Positionen, an denen physikalische Ereignisse auftreten, genau zu bestimmen. Das bedeutet: Selbst wenn das Modell "weiß", dass es Feuer gibt, brennt es möglicherweise nicht an der richtigen Position; Selbst wenn es "weiß", dass es eine Kollision gibt, beachtet es möglicherweise nicht das Impulserhaltungssatz.

ProPhy: Ein "Physik - Experte" in das Videomodell einbauen?

Anstatt das Modell vage "die Physik zu erraten", lassen verschiedene "Physik - Experten" verschiedene physikalische Gesetze beherrschen und koordinieren sie durch progressive Ausrichtung

Zweistufiges Physik - Experten - Mechanismus (MoPE)

Erste Stufe: Semantischer Physik - Experte (SEB)

Der SEB ist für das Aufbauen eines makroskopischen Verständnisses der gesamten physikalischen Struktur der Szene verantwortlich. In dieser Stufe analysiert das Modell zunächst die potenziellen physikalischen semantischen Informationen aus den Texthinweisen und erkennt die Typen der physikalischen Phänomene, die in der Szene möglicherweise auftreten. Durch den semantischen Routing - Mechanismus werden verschiedene Physik - Experten (z. B. Brennen, Reflexion, Brechung, Fluidbewegung usw.) dynamisch aktiviert und zu einer einheitlichen videoleveln physikalischen Priordarstellung fusioniert. Das Kernziel dieser Stufe ist es, eine globale Frage zu beantworten:

"Welche physikalischen Gesetze sind in diesem Video involviert?"

Zweite Stufe: Feingranulierter Physik - Experte (Refinement Expert Block, REB)

Wenn der SEB den kognitiven Rahmen der "Physiktypen" aufbaut, ist der REB für die genaue Umsetzung der "physikalischen Positionen" verantwortlich. Nachdem das Modell das globale physikalische Prior erhalten hat, tritt es in die Phase der feingranulierten Ausrichtung ein. Der REB führt auf Token - Ebene den Expertenrouting durch und weist jedem räumlichen Ort dynamisch den am besten geeigneten Physik - Experten zu, so dass verschiedene Bereiche unterschiedlich auf verschiedene physikalische Gesetze reagieren, um eine räumlich anisotrope physikalische Modellierung zu erreichen. Diese Stufe löst eine noch wichtigere Frage:

"Wo genau treten die physikalischen Phänomene im Bild auf?"

Expertenwissen: Die "physikalische Wahrnehmungsfähigkeit" von VLM ausleihen

Eine sehr inspirierende Entdeckung im Artikel ist:

Bei der Fähigkeit der "Lokalisierung von physikalischen Phänomenen" ist das Vision - Language Model (z. B. Qwen2.5 - VL) oft genauer als das Videogenerativmodell.

Mit anderen Worten, das Generativmodell ist gut darin, "zu zeichnen", aber möglicherweise nicht gut darin, "klar zu sehen". Das VLM hat jedoch in Bezug auf das transmodale Verständnis und die räumliche Aufmerksamkeitsverteilung eine stärkere Fähigkeit zur Lokalisierung von physikalischen Ereignissen. Basierend auf dieser Beobachtung hat der Autor eine ziemlich kühne Experiment gemacht – die physikalische Wahrnehmungsfähigkeit des VLM in das Generativmodell zu übertragen.

Konkret:

Verwenden Sie das VLM für die Beantwortung von Fragen zu physikalischen Phänomenen (z. B. "Wo tritt das Brennen - Phänomen im Video auf?")
Extrahieren Sie die entsprechende Attention Map
Erstellen Sie ein Token - leveln physikalisches Lokalisierungssignal
Richten Sie dieses Signal an den Refinement Router des Generativmodells aus

Dies ist im Wesentlichen eine Distillation und Übertragung der physikalischen Fähigkeiten zwischen Modellen.

Experimentelle Ergebnisse: Nicht nur besser "physikkonform", sondern auch "bewegungsfähiger"

Quantitative Bewertung

Im autoritativen Benchmark für physikalischen gesunden Menschenverstand VideoPhy2 zeigt ProPhy deutliche Vorteile: auf dem Basis - Modell Wan2.1 - 1.3B

Der Joint - Index steigt um +19,7%
Der Physical Commonsense (PC) und der Semantic Adherence (SA) steigen synchron

Das bedeutet, dass das Modell in beiden Dimensionen der "physikalischen Richtigkeit" und der "semantischen Konsistenz" gleichzeitig verbessert wird, anstatt die semantische Qualität zu opfern, um die physikalischen Punktzahl zu verbessern.

auf CogVideoX - 5B

Mehrere Indizes erreichen das SOTA - oder Suboptimalniveau
Es zeigt sich sowohl in der Gesamtmenge als auch in der schwierigen Teilmenge (HARD) stabil

ProPhy ist nicht auf eine bestimmte Architektur optimiert, sondern hat eine gute Allgemeingültigkeit und Übertragbarkeit.

Im VBench - Benchmark, der die dynamische Leistungsfähigkeit von Videos betont

Der Dynamic Degree - Index steigt deutlich

Die Gesamtscore der Qualität steigt synchron

Visuelle Vergleich

ProPhy bringt nicht nur eine Verbesserung der Bildqualität, sondern auch eine radikale Umgestaltung auf der Ebene der physikalischen Logik. Im Vergleich zu den häufigen Fehlern bei der Auslösung von Phänomenen, dem Verstoß gegen das Impulserhaltungssatz oder dem räumlichen Modusüberschreiten in herkömmlichen Methoden zeigt ProPhy in der dynamischen Darstellung eine sehr hohe Übereinstimmung mit der Realität:

Die Bewegungen sind exakter: Sowohl der momentane Staubwurf beim Diskuswerfen als auch die Impulsübertragung bei der Kugelkollision sind deutlich erkennbar;

Die Interaktion ist natürlicher: Die Flüssigkeitsströmung verletzt nicht mehr die Struktur des Behälters, und die Flugbahn und der Auftreffpunkt des Fußballs bleiben logisch einheitlich.

Dies markiert den Übergang des Modells von der Streben nach visueller "Ähnlichkeit" zur Befolgung der "Weltregeln" – es generiert nicht nur Videos, sondern eine dynamische Welt, die durch die Realität begrenzt ist.

Weitere qualitative Analysen können auch zeigen, dass ProPhy in mehreren physikalischen Bereichen Videos generieren kann, die eher der physikalischen Realität entsprechen.

Tiefergehende Bedeutung: Der Weg zu einem "steuerbaren physikalischen Weltmodell"

Es gibt auch ein sehr inspirierendes Experiment im Artikel. Wenn die Forscher die Routinggewichte der Physik - Experten künstlich umkehren, ändert sich das Ergebnis, das das Modell generiert, dramatisch – die ursprünglich starre Autotür flattert tatsächlich wie ein Stoff im Wind. Dieses Phänomen ist kein zufälliger Fehler bei der Generierung, sondern ein starker Beweis:

Die verschiedenen Physik - Expertenmodule haben tatsächlich unterscheidbare physikalische Priors gelernt.

Mit anderen Worten, im Modell hat sich eine strukturierte und zerlegbare physikalische Wissensdarstellung gebildet. Wenn das Forschungsteam die Auswahl der Experten beeinflusst, bedeutet dies, dass es direkt die physikalischen Regeln selbst steuert. Dies ist nicht nur eine Leistungseoptimierung, sondern eine Erweiterung der Fähigkeitsgrenzen – das Videogenerativmodell zeigt erstmals das Potenzial, sich zu einem "steuerbaren physikalischen Weltmodell" zu entwickeln. In Zukunft könnte diese strukturierte physikalische

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Beim Generieren von Videos treten ständig physikalische Fehler auf? Nutzen Sie VLM-Migration + Token-Level-Alignierung, um das Brennen an der richtigen Position zu ermöglichen und die Kollisionen dem Impulserhaltungssatz zu folgen. Es wurde von CVPR 2026 mit fast perfekter Note akzeptiert.