李飞飞的世界模型来了,一句话生成3D世界,AI 真的开始理解现实了
世界模型终于来了!
今天凌晨,被称为 “AI 教母” 的斯坦福教授李飞飞宣布,她的创业公司World Labs正式推出首款产品Marble。这是世界模型方向第一次以可用产品的形式出现在公众面前。
Marble的核心能力可以概括为三点:
第一,多模态生成。它可以根据一张图片、一段视频,甚至一句文字提示,重建出结构完整、细节丰富的 3D 世界。
第二,AI 原生的世界编辑能力。Marble 允许用户像调整真实场景一样对世界进行局部替换、材质变化、光照调整或布局重构。
第三,真正可落地的制作流程。Marble支持将生成的世界导出为高斯溅射、三角网格或视频格式,可直接进入Unreal、Unity、Blender 等常见创作工具,融入游戏、影视等行业的工作流。
李飞飞认为,Marble的意义远不止“让3D创作更方便”。正如其在《从语言到世界:空间智能是AI的下一个前沿》长文里所说,Marble只是其创造一个真正具有空间智能的世界模型的第一步。
从这个视角看,Marble 不只是第一次以“可用产品”的形式把世界模型带到公众面前,更象征着空间智能时代的正式开场:
从最开始给创作者做3D世界的工具,到未来有可能帮助机器人理解现实环境,再到在科学研究里用来做虚拟实验、提前预测结果。
更重要的是,它让外界第一次清晰地感受到:
AI 有可能从理解图像和语言,迈向理解并操控一个由结构、物理与动态规律构成的完整世界。
目前,Marble 已经正式开放使用,地址如下:https://marble.worldlabs.ai/
01 一句话、一张图,就能造出一个世界了
Marble 最让人感到“魔法”的地方,其实就一句话:
不管你给它什么,一句话、一张图、几段视频、甚至几个立方体搭出的草稿,它都能变成一个完整的3D世界。
这听起来像夸张宣传,但我们不妨从最简单的输入方式开始看起。
先来看文本生成。假设你给 Marble 这样一句提示词:
“一个融合了世纪中期餐厅美学和轨道技术的开放式厨房,以方格地板和不锈钢配件为特色,并配以柔和的浅蓝色灯光。”
看似冗长,但Marble会自动提取关键元素,方格地板、不锈钢、浅蓝灯光、开放式厨房,然后在几秒钟内生成一个“你能走进去”的三维空间。
就像下面这样:
除了文本外,Marble还支持更复杂的创作方式:
单图生成:给一张照片,它能生成一个可漫游的3D 世界;
比如给Marble一张照片,它能根据照片的透视关系、光线方向和物体摆放方式,把场景自动补齐成一个可漫游的3D世界。
结果大概是这样:
更进一步,如果你提供多视角图片或者视频,它也能捕捉关键元素,还原出一个更完整、更准确的三维空间。
▲第一张为正面,第二张为侧面
例如,你可以给 Marble 两张照片:一张拍正面、一张拍侧面。系统会把两张图的信息拼在一起,还原成一个更加完整、立体的空间,效果如下所示:
除了文字、图片和视频外,对于更专业的创作者,Marble还提供了 Chisel 工具。
这是Marble面向进阶创作者推出的一种实验性编辑方式。在使用 Chisel 时,创作者可以先在三维空间中搭一个非常粗略的框架。
这个框架可以简单到只由几个盒子、平面或墙体组成,也可以复杂到包含多个房间、走廊甚至多层结构。此外,用户也能导入已有的 3D 资源,把它们当作世界的一部分嵌入到场景里。
当这样的“骨架”搭好之后,AI 会进入第二个阶段。创作者只需要用一句话描述希望呈现的风格,无论是现代艺术博物馆、北欧风民宿,还是科幻实验舱,系统就会在已有结构的基础上补全材质、灯光和细节,让整个世界呈现出统一的视觉语言。
例如,基于3D几何的原图,再配上这段文字提示:一座美丽的现代艺术博物馆,铺着木地板,里面摆满了色彩缤纷的绘画和曲线优美的雕塑,会得到如下效果:
这种方式的关键在于,它将空间逻辑与视觉风格明确区分开来。粗略的三维布局决定了场景的基本结构,而文本提示负责控制最终呈现的风格与氛围。两者之间可以自由组合,因而同一个框架可以衍生出完全不同的世界。
02 Marble的真正颠覆,一个可以持续进化的世界
生成只是起点。Marble的另一项重要突破,是把“世界编辑”变成了 AI 的原生能力。
它允许用户像处理真实场景一样对生成的三维世界进行调整:删除一个物体、替换材质、改变光线、扩展某个区域,甚至重构整个空间布局。
以下是Marble的演示案例:
这种“可编辑性”让三维生成第一次摆脱了“一次出图”的限制,转而变成一个持续打磨的创作过程,更接近真实的三维制作工作流。
不仅如此,Marble 还为世界的“扩展”提供了新的方法。
在传统 3D 创作中,场景越大,表达力越强,但扩展场景往往意味着更高的成本。在这一点上,Marble 给了创作者极大的自由度。
当初始世界生成后,用户可以对其中的任意区域进行扩展。只需要选定一块区域,系统便会根据已有的场景逻辑推演出新的环境,将原本模糊或未展开的部分补全。
例如,一个房间的边角可能在第一版生成中不够细致,或者家具背面的信息没有完全呈现,通过扩展,这些薄弱之处就能补足,变得更加统一和完整。
更大的区域则可以被延展成庭院、街道,甚至是整片景观,让最初的小场景自然发展成一个具有沉浸感的空间。
以下是Marble的演示案例:
除了向单个世界内部延伸外,Marble 还提供了一种构建大型场景的另一种方式:通过“组合模式”,将多个独立生成的世界组合在一起。
这个“组合模式”允许创作者像拼接地图一样安排不同世界之间的关系,无论是并列、连接还是嵌套,都可以根据需要自由布局。
这意味着,用户可以先生成若干风格各异的空间,再通过组合构成一个规模庞大、层次丰富的虚拟环境。
这两种方式使Marble不再是一个一次性生成场景的工具,而更像是一个可以持续扩展的世界构建平台。
03 生成即素材,AI世界能被用到游戏、影视了
在世界生成之后,如何将其带入真实的制作流程,是三维创作工具能否真正发挥价值的关键。
Marble 在这一点上做得相当充分,它允许用户将场景导出为多种格式,以便在后续的游戏开发、影视制作、建筑可视化或机器人模拟中继续使用。
其中一种导出方式是高斯粒子渲染。高斯粒子可以理解为一种“由无数微小点组成的三维画面”。Marble 在生成世界时,会把场景拆成成千上万个带有颜色、透明度和深度信息的小粒子,再把它们叠加在一起,形成逼真的三维图像。
这种方式特别适合表现柔和的光影、复杂的材质和细腻的空间层次,因此被用于展示 Marble 世界的最高精度效果。
为了让这些粒子世界能够直接在网页里查看,Marble 还推出了一个叫Spark的开源渲染器。它基于常见的 THREE.js(一个帮助用户在网页里显示3D内容的工具库),可以让用户直接在浏览器中加载和展示这些高斯粒子世界。
如果你需要的是更传统的三维资产,Marble 也支持将世界导出成“三角网格”。这是游戏、影视和设计行业的通用格式,几乎所有专业软件都能直接打开。
Marble 提供了两种不同精度的网格:
一种是“碰撞网格”,结构比较粗糙,用于物理模拟,例如角色碰撞检测、机器人路径规划等。
另一种是“高质量网格”,尽可能保留原始世界的细节和光影,适合正式用于游戏关卡、动画镜头或建筑展示。
导出成网格后,这些场景可以无缝进入 Blender、Maya、Unity、Unreal 等主流制作工具,完全融入现有的创作管线,不需要额外转换。这意味着,Marble生成的素材,有机会被直接用到游戏、影视等行业的工作流中。
当然,如果你的目标只是展示,Marble 也支持把整个世界直接渲染成视频。官方示例视频几乎都是用 Marble 直接生成的。
此外,Marble还支持对导出的视频进行增强处理。它会自动补上更细腻的细节,消除画面中不自然的地方,甚至加入一些动态效果,比如火焰的跳动、烟雾的飘散或水流的波动。整个增强过程仍然基于原始三维结构,所以镜头、光影和透视都能保持一致。
通过这些导出方式,Marble 不再只是一个“能生成世界的 AI”,而是真正能融入各种行业工作流的三维创作平台。
04 当AI开始“生成世界”,到底意味着什么?
在看到 Marble 的这些能力后,一个问题几乎会自然而然冒出来:
当 AI 真的开始“生成世界”了,这意味着什么?
其实,在 Marble 发布前,李飞飞就发了一篇名为《从语言到世界:空间智能是 AI 的下一个前沿》的长文,几乎像是对Marble这类世界模型的理论铺垫。
文章讨论了一个更底层的问题:空间智能与世界模型之间的关系,以及为什么它们会成为下一代 AI 的关键。
李飞飞认为,空间智能决定了人类如何与物理世界互动,是几乎所有认知能力的脚手架。从纺纱机的改进,到发现DNA双螺旋,文明的突破多来自对“空间问题”的理解,而这些问题无法单靠语言描述解决。
因此,如果AI想真正理解世界、进入现实场景、与物理环境交互,就必须拥有这种“面向空间的智能”,而这又离不开更基础的能力:世界模型。
在李飞飞看来,一个成熟的世界模型至少要具备三种核心能力:
第一,生成性。它能创造结构完整、物理合理的三维世界,不是生成一张图,而是一个能“运行”的世界,并且不同输入方式(文字、图像、结构)都能生成连续、连贯的场景。
第二,多模态性。它能从各种感官输入中推断世界状态——图片、视频、文本、动作甚至手势——这让人类和智能体都能在同一个世界里交流。
第三,交互性。当你向前走一步、推开门或移动一个物体,世界模型必须能预测世界的下一帧,并保持内部逻辑一致。
要实现这些能力,世界模型要跨越的技术门槛远比语言模型高:
缺少像“预测下一个词”那样统一的训练任务。世界模型的输入远比文本复杂。
需要巨量且高度复杂的数据,不仅是视频,还包括深度、光照、材质、物理行为等信息。
需要全新的模型架构来表示 3D/4D 空间,而不是像 LLM 一样把所有信息“扁平化”。
Marble的发布,是世界模型的第一次“产品化亮相”,其根据多模态输入生成一致3D环境的能力,也只是世界模型的基础能力之一。
未来,当这类模型真正掌握“看、想、动”的完整链条时,机器人将成为最直接的应用方向,而更深层的科学应用,如自动化实验、材料设计、仿真研究,可能需要更长时间才能成熟。
但Marble的出现说明,这条道路已经开始变得清晰:
从语言智能,走向空间智能;从文本世界,走向三维世界。
本文来自微信公众号“硅基观察Pro”,作者:硅基君,36氪经授权发布。