解决生成视频物理bug！VLM迁移+token级对齐，实现燃烧位置精准、碰撞遵循动量守恒，CVPR 2026近满分接收

AI终于学会遵守物理定律了吗？

当人们谈到“世界模型”（World Models）时，很多人会首先想到近年来迅速发展的生成式视频模型。

从通用生成模型Wan到NVIDIA的视频世界模型Cosmos，这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景，看起来仿佛真实世界的录像。

在很多情况下，这种能力已经足够令人惊叹：

模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看，它们似乎已经“学会了”世界的运行方式。

然而，如果仔细观察这些视频，就会发现一个耐人寻味的现象：

它们看起来很真实，却未必真正“理解”物理世界。

例如，在一些生成视频中，会看到：

无中生有、不断蔓延的蜂蜜；

斧头劈柴结果不同步；……

这些违背常识的细节，正在暴露一个关键问题：

现有的视频生成模型，本质上仍然停留在“外观拟合”，而非真正的“物理建模”。

换句话说，它们可以生成“像物理”的画面，却未必真正理解：

物体为何运动
力如何传递
物理现象应当在何处发生

这也引出了一个越来越受到关注的问题：

生成式视频模型，究竟是在“模拟世界”，还是仅仅在“模仿世界”？

为突破这一瓶颈，中山大学和MBZUAI等机构联合提出了ProPhy。该工作构建了一种全新的渐进式物理对齐框架，使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力——不仅能够判断应当呈现何种物理现象，更能够精准定位物理现象应发生在画面的何处。ProPhy的提出，标志着视频生成模型从“视觉逼真”迈向“物理一致”，向真正意义上的“世界模拟器”迈出了关键一步。

目前，该论文已被CVPR2026接近满分接收，项目的论文和代码均已开源：

思考：为什么视频模型学不会物理？

尽管现有模型在视觉逼真度上突飞猛进，但在物理一致性方面却屡屡“翻车”。论文指出现有方法存在两个根本性瓶颈：

1. 缺乏显式的物理建模：当前大多数方法依赖隐式学习，或仅使用粗粒度的全局物理类别标签进行辅助。这种方式本质上只是让模型“模仿现象”，却没有真正形成可区分、可组合的物理先验。换句话说，模型或许能生成“像燃烧”“像碰撞”的画面，但并未真正理解：不同物理规律之间的差异是什么；各类物理现象在现实世界中应如何演化。结果是——物理规律在模型内部仍然是模糊、混合且不可分解的。

2. 缺乏细粒度空间对齐：真实世界的物理现象往往发生在局部区域（火焰在燃烧处、水花在接触点飞溅），但模型往往“各向同性”响应，缺乏对空间区域的差异化建模，无法精准定位物理事件发生的位置。这意味着：模型即使“知道”有火，也未必能在正确位置燃烧；即使“知道”有碰撞，也未必遵守动量守恒。

ProPhy：把“物理专家”植入视频模型？

不再让模型模糊地“猜物理”，而是让不同“物理专家”分别掌握不同物理规律，并通过渐进式对齐进行协调

两阶段物理专家机制（MoPE）

第一阶段：语义物理专家（SEB）

SEB负责建立对场景整体物理结构的宏观理解。在这一阶段，模型首先从文本提示中解析潜在的物理语义信息，识别场景中可能涉及的物理现象类型。通过语义路由机制，不同的物理专家（如燃烧、反射、折射、流体运动等）被动态激活，并融合为统一的视频级物理先验表示。这一阶段的核心目标是回答一个全局问题：

“这个视频涉及哪些物理规律？”

第二阶段：细粒度物理专家（Refinement Expert Block, REB）

如果说SEB建立的是“物理种类”的认知框架，那么REB则负责“物理位置”的精确落地。在获得全局物理先验之后，模型进一步进入精细化对齐阶段。REB在token级别执行专家路由，为每个空间位置动态分配最合适的物理专家，使不同区域对不同物理规律产生差异化响应，从而实现空间各向异性的物理建模。这一阶段解决的是一个更加关键的问题：

“物理现象具体发生在画面的哪里？”

专家知识：向VLM借“物理感知能力”

论文中一个极具启发性的发现是：

在“物理现象定位”这一能力上，Vision-Language Model（如Qwen2.5-VL）往往比视频生成模型更精准。

换言之，生成模型擅长“画出来”，但未必擅长“看清楚”。而VLM在跨模态理解与空间注意力分布上，反而具备更强的物理事件定位能力。基于这一观察，作者做了一件相当大胆的尝试——将VLM的物理感知能力迁移到生成模型中。

具体而言：

利用VLM进行物理现象问答（例如“视频中燃烧现象发生在哪里？”）
提取对应的attention map
构建token级物理定位信号
将该信号对齐到生成模型的Refinement Router

这本质上是一种跨模型的物理能力蒸馏与迁移。

实验结果：不仅更“守物理”，更“会运动”

定量评估

在权威物理常识评测基准VideoPhy2上，ProPhy展现出显著优势：在Wan2.1-1.3B基座模型上

Joint指标提升+19.7%
Physical Commonsense （PC）与Semantic Adherence （SA）同步提升

这意味着模型在“物理正确性”与“语义一致性”两个维度上同时增强，而不是以牺牲语义为代价换取物理分数。

在CogVideoX-5B上

多项指标达到SOTA或次优水平
在整体与困难子集（HARD）上均表现稳定

ProPhy并非针对某一特定架构调优，而是具备良好的通用性与可迁移性。

在强调视频动态表现能力的VBench评测中

Dynamic Degree指标显著提升

综合质量评分同步提高

视觉对比

ProPhy带来的不仅是画质的提升，更是物理逻辑层面的彻底重构。相比于传统方法中频发的现象触发错位、动量守恒违背或空间穿模，ProPhy在动态表现上展现出了极高的现实一致性：

动作更严谨：无论是掷铁饼时的瞬间扬尘，还是球体碰撞的动量传递，均清晰可辨；

交互更自然：液体流向不再违背容器结构，足球轨迹与落点保持逻辑统一。

这标志着模型从追求视觉“形似”向遵循“世界规则”的本质跨越——它生成的不再只是视频，而是一个受现实约束的动态世界。

更多的定性分析也能够表明，ProPhy能够在多个物理领域下生成更加符合物理实际的视频。

更深层意义：通向“可控物理世界模型”

论文中还有一个极具启发性的实验。当研究者人为反转物理专家的路由权重时，模型生成的结果发生了戏剧性变化——原本刚性的汽车车门，竟然像布料一样随风飘动。这一现象并非偶然的生成失误，而是一个强有力的证据：

不同物理专家模块，确实学习到了彼此区分的物理先验。

换句话说，模型内部已经形成了结构化、可分解的物理知识表示。当研究团队干预专家选择时，等于直接操控了物理规则本身。这不只是一次性能优化，而是一次能力边界的拓展——视频生成模型，第一次展现出向“可控物理世界模型”演化的潜力。未来，这种结构化物理建模方式可能带来一系列全新的能力：

可控物理属性编辑：让刚体变柔性，让流体变黏稠，直接操控物体的物理属性。

物理规律迁移：将某种物理行为模式迁移到新的场景或对象上，实现跨场景物理泛化。

物理参数调节：调整重力强度、碰撞弹性、流体阻力等隐含参数，实现“物理可编程生成”。

可解释物理建模：通过专家激活模式理解模型内部“相信”的物理规律，提升透明度与可分析性。

总结与展望

总结：从“看起来真实”到“运行真实”

ProPhy的意义，并不只在于一次性能提升或一个新模块设计。它真正推动的是视频生成范式的转变——从依赖数据统计规律的视觉拟合，走向具备结构化物理建模能力的动态推演。

通过分层物理专家机制与细粒度空间对齐策略，ProPhy让模型第一次同时回答两个关键问题：“涉及哪些物理规律？”以及“这些规律发生在何处？”更重要的是，它借助VLM的空间感知能力，将物理定位能力迁移到生成过程之中，使视频生成不再只是外观一致，而是逐步具备物理一致性。这意味着，视频模型正在从“像世界”迈向“遵循世界”。

展望：下一代可推演的世界模型

当然，ProPhy仍然只是一个开始。当前的物理建模仍基于类别与注意力对齐，未来或许可以进一步引入连续动力学建模、微分方程约束，甚至将物理引擎与生成模型深度融合，使模型具备更可解释、可控制的物理推演能力。

当视频生成真正理解力、能量与守恒定律，当物理规律成为生成过程的内在约束，我们或许将迎来一种全新的AI形态——不仅能够生成世界的表象，更能够模拟世界的运行。那时，视频模型将不再只是创作工具，而是真正意义上的“可学习世界模拟器”。

论文第一作者中山大学一年级博士生王子俊和穆罕默德·本·扎耶德人工智能大学（MBZUAI）胡攀文博士，研究方向为视频生成和世界模型；通讯作者为中山大学智能工程学院梁小丹教授和黎汉汇教授。

论文标题：ProPhy: Progressive Physical Alignment for Dynamic World Simulation

论文链接：https://arxiv.org/pdf/2512.05564

项目主页：https://zijunwa.github.io/prophy/

代码链接：https://github.com/zijunwa/ProPhy

本文来自微信公众号“量子位”，作者：ProPhy团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

生成视频总出物理bug？用VLM迁移+token级对齐，让燃烧在正确位置发生，碰撞遵循动量守恒，CVPR 2026近满分接收