生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒,CVPR 2026近满分接收
当人们谈到“世界模型”(World Models)时,很多人会首先想到近年来迅速发展的生成式视频模型。
从通用生成模型Wan到NVIDIA的视频世界模型Cosmos,这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景,看起来仿佛真实世界的录像。
在很多情况下,这种能力已经足够令人惊叹:
模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看,它们似乎已经“学会了”世界的运行方式。
然而,如果仔细观察这些视频,就会发现一个耐人寻味的现象:
它们看起来很真实,却未必真正“理解”物理世界。
例如,在一些生成视频中,会看到:
无中生有、不断蔓延的蜂蜜;
斧头劈柴结果不同步;……
这些违背常识的细节,正在暴露一个关键问题:
现有的视频生成模型,本质上仍然停留在“外观拟合”,而非真正的“物理建模”。
换句话说,它们可以生成“像物理”的画面,却未必真正理解:
- 物体为何运动
- 力如何传递
- 物理现象应当在何处发生
这也引出了一个越来越受到关注的问题:
生成式视频模型,究竟是在“模拟世界”,还是仅仅在“模仿世界”?
为突破这一瓶颈,中山大学和MBZUAI等机构联合提出了ProPhy。该工作构建了一种全新的渐进式物理对齐框架,使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力——不仅能够判断应当呈现何种物理现象,更能够精准定位物理现象应发生在画面的何处。ProPhy的提出,标志着视频生成模型从“视觉逼真”迈向“物理一致”,向真正意义上的“世界模拟器”迈出了关键一步。
目前,该论文已被CVPR2026接近满分接收,项目的论文和代码均已开源:
思考:为什么视频模型学不会物理?
尽管现有模型在视觉逼真度上突飞猛进,但在物理一致性方面却屡屡“翻车”。论文指出现有方法存在两个根本性瓶颈:
1. 缺乏显式的物理建模:当前大多数方法依赖隐式学习,或仅使用粗粒度的全局物理类别标签进行辅助。这种方式本质上只是让模型“模仿现象”,却没有真正形成可区分、可组合的物理先验。换句话说,模型或许能生成“像燃烧”“像碰撞”的画面,但并未真正理解:不同物理规律之间的差异是什么;各类物理现象在现实世界中应如何演化。结果是——物理规律在模型内部仍然是模糊、混合且不可分解的。
2. 缺乏细粒度空间对齐:真实世界的物理现象往往发生在局部区域(火焰在燃烧处、水花在接触点飞溅),但模型往往“各向同性”响应,缺乏对空间区域的差异化建模,无法精准定位物理事件发生的位置。这意味着:模型即使“知道”有火,也未必能在正确位置燃烧;即使“知道”有碰撞,也未必遵守动量守恒。
ProPhy:把“物理专家”植入视频模型?
不再让模型模糊地“猜物理”,而是让不同“物理专家”分别掌握不同物理规律,并通过渐进式对齐进行协调
两阶段物理专家机制(MoPE)
第一阶段:语义物理专家(SEB)
SEB负责建立对场景整体物理结构的宏观理解。在这一阶段,模型首先从文本提示中解析潜在的物理语义信息,识别场景中可能涉及的物理现象类型。通过语义路由机制,不同的物理专家(如燃烧、反射、折射、流体运动等)被动态激活,并融合为统一的视频级物理先验表示。这一阶段的核心目标是回答一个全局问题:
“这个视频涉及哪些物理规律?”
第二阶段:细粒度物理专家(Refinement Expert Block, REB)
如果说SEB建立的是“物理种类”的认知框架,那么REB则负责“物理位置”的精确落地。在获得全局物理先验之后,模型进一步进入精细化对齐阶段。REB在token级别执行专家路由,为每个空间位置动态分配最合适的物理专家,使不同区域对不同物理规律产生差异化响应,从而实现空间各向异性的物理建模。这一阶段解决的是一个更加关键的问题:
“物理现象具体发生在画面的哪里?”
专家知识:向VLM借“物理感知能力”
论文中一个极具启发性的发现是:
在“物理现象定位”这一能力上,Vision-Language Model(如Qwen2.5-VL)往往比视频生成模型更精准。
换言之,生成模型擅长“画出来”,但未必擅长“看清楚”。而VLM在跨模态理解与空间注意力分布上,反而具备更强的物理事件定位能力。基于这一观察,作者做了一件相当大胆的尝试——将VLM的物理感知能力迁移到生成模型中。
具体而言:
- 利用VLM进行物理现象问答 (例如“视频中燃烧现象发生在哪里?”)
- 提取对应的attention map
- 构建token级物理定位信号
- 将该信号对齐到生成模型的Refinement Router
这本质上是一种跨模型的物理能力蒸馏与迁移。
实验结果:不仅更“守物理”,更“会运动”
定量评估
在权威物理常识评测基准VideoPhy2上,ProPhy展现出显著优势:在Wan2.1-1.3B基座模型上
- Joint指标提升+19.7%
- Physical Commonsense (PC) 与Semantic Adherence (SA) 同步提升
这意味着模型在“物理正确性”与“语义一致性”两个维度上同时增强,而不是以牺牲语义为代价换取物理分数。
在CogVideoX-5B上
- 多项指标达到SOTA或次优水平
- 在整体与困难子集 (HARD) 上均表现稳定
ProPhy并非针对某一特定架构调优,而是具备良好的通用性与可迁移性。
在强调视频动态表现能力的VBench评测中
Dynamic Degree指标显著提升
综合质量评分同步提高
视觉对比
ProPhy带来的不仅是画质的提升,更是物理逻辑层面的彻底重构。相比于传统方法中频发的现象触发错位、动量守恒违背或空间穿模,ProPhy在动态表现上展现出了极高的现实一致性:
动作更严谨:无论是掷铁饼时的瞬间扬尘,还是球体碰撞的动量传递,均清晰可辨;
交互更自然:液体流向不再违背容器结构,足球轨迹与落点保持逻辑统一。
这标志着模型从追求视觉“形似”向遵循“世界规则”的本质跨越——它生成的不再只是视频,而是一个受现实约束的动态世界。
更多的定性分析也能够表明,ProPhy能够在多个物理领域下生成更加符合物理实际的视频。
更深层意义:通向“可控物理世界模型”
论文中还有一个极具启发性的实验。当研究者人为反转物理专家的路由权重时,模型生成的结果发生了戏剧性变化——原本刚性的汽车车门,竟然像布料一样随风飘动。这一现象并非偶然的生成失误,而是一个强有力的证据:
不同物理专家模块,确实学习到了彼此区分的物理先验。
换句话说,模型内部已经形成了结构化、可分解的物理知识表示。当研究团队干预专家选择时,等于直接操控了物理规则本身。这不只是一次性能优化,而是一次能力边界的拓展——视频生成模型,第一次展现出向“可控物理世界模型”演化的潜力。未来,这种结构化物理建模方式可能带来一系列全新的能力:
可控物理属性编辑:让刚体变柔性,让流体变黏稠,直接操控物体的物理属性。
物理规律迁移:将某种物理行为模式迁移到新的场景或对象上,实现跨场景物理泛化。
物理参数调节:调整重力强度、碰撞弹性、流体阻力等隐含参数,实现“物理可编程生成”。
可解释物理建模:通过专家激活模式理解模型内部“相信”的物理规律,提升透明度与可分析性。
总结与展望
总结:从“看起来真实”到“运行真实”
ProPhy的意义,并不只在于一次性能提升或一个新模块设计。它真正推动的是视频生成范式的转变——从依赖数据统计规律的视觉拟合,走向具备结构化物理建模能力的动态推演。
通过分层物理专家机制与细粒度空间对齐策略,ProPhy让模型第一次同时回答两个关键问题:“涉及哪些物理规律?”以及“这些规律发生在何处?”更重要的是,它借助VLM的空间感知能力,将物理定位能力迁移到生成过程之中,使视频生成不再只是外观一致,而是逐步具备物理一致性。这意味着,视频模型正在从“像世界”迈向“遵循世界”。
展望:下一代可推演的世界模型
当然,ProPhy仍然只是一个开始。当前的物理建模仍基于类别与注意力对齐,未来或许可以进一步引入连续动力学建模、微分方程约束,甚至将物理引擎与生成模型深度融合,使模型具备更可解释、可控制的物理推演能力。
当视频生成真正理解力、能量与守恒定律,当物理规律成为生成过程的内在约束,我们或许将迎来一种全新的AI形态——不仅能够生成世界的表象,更能够模拟世界的运行。那时,视频模型将不再只是创作工具,而是真正意义上的“可学习世界模拟器”。
论文第一作者中山大学一年级博士生王子俊和穆罕默德·本·扎耶德人工智能大学(MBZUAI)胡攀文博士,研究方向为视频生成和世界模型;通讯作者为中山大学智能工程学院梁小丹教授和黎汉汇教授。
论文标题:ProPhy: Progressive Physical Alignment for Dynamic World Simulation
论文链接:https://arxiv.org/pdf/2512.05564
项目主页:https://zijunwa.github.io/prophy/
代码链接:https://github.com/zijunwa/ProPhy
本文来自微信公众号“量子位”,作者:ProPhy团队,36氪经授权发布。