极佳视界朱政：世界模型——物理世界AI的下一代基础设施

近日，AI蓝鲸汇世界模型第二期《新范式下的世界模型引领空间智能》专题，特邀极佳视界联合创始人、首席科学家朱政，带来《世界模型：开启物理世界 AI 新时代》的主题分享。

AI 蓝鲸汇 由多名资深 AI 从业者与投资人共同创建，以“小规模、高规格、深度交流”为核心，长期邀请一线 AI 从业者、技术专家、创业者与投资人，围绕真实产业议题展开坦诚对话，致力于发现与培育优质 AI 项目，帮助更多青年创业者在 AI 浪潮中找到真正可落地的方向。

在世界模型第二期专题中， AI 蓝鲸汇 将目光投向具身智能与空间智能这一关键交汇点。相比单纯讨论“模型能力有多强”，本次分享更关注一个正在逼近产业核心的问题：当具身智能从实验室热潮走向产业竞速，行业真正需要回答的，已经不只是“机器人能不能动起来”，而是“它能否在复杂真实世界中，稳定完成几十种、上百种任务”

近日，AI蓝鲸汇世界模型第二期《新范式下的世界模型引领空间智能》专题，特邀极佳视界联合创始人、首席科学家朱政，带来《世界模型：开启物理世界 AI 新时代》的主题分享。围绕世界模型、VLA、空间智能、端侧部署与具身场景落地等前沿议题，朱政与现场嘉宾展开了深入交流。

这场分享的价值，并不在于再次解释“世界模型”这一热门概念，而在于把资本市场与技术圈的热词重新拆回工程现实：为什么 VLA 的规模效应尚未如预期释放？为什么世界模型正在被视为下一代基础模型的重要方向？数据、端侧部署、灵巧手、成本与家庭场景之间，又到底卡在哪些真正决定产业进程的瓶颈上？

世界模型的真正意义，在于把机器人从“执行动作”推进到“理解世界”

朱政对世界模型的定义，并不是把它当作视频生成、空间重建或具身智能之外的独立分支，而是把它视为物理世界AI 的下一代基础模型。过去几年，行业首先完成了语言基础模型的爆发，随后开始进入具身基础模型阶段；而在他看来，再往前走，真正能够支撑机器人进入开放环境、多任务场景和家庭空间的，不会只是一个更大的动作模型，而是一个能够对世界状态进行预测和压缩的模型体系。

这也是他反复强调“世界模型不是为了做演示，而是为了做落地”的原因。对单一任务、封闭工位或固定流程而言，当前的具身模型加后训练已经可以取得相当高的成功率；但一旦目标变成跨场景、跨任务、跨本体的能力迁移，问题立刻变了。机器人不再只是完成一个预设动作，而必须理解环境变化、推演行为后果，并在任务之间建立可迁移的表征。正是在这个意义上，世界模型才构成了“物理世界 AI 新时代”的起点：它让机器人开始从“动作执行器”走向“世界理解器”。

从VLA 走向 World Model，是因为旧路线的规模效应正在变弱

朱政分享中最有分量的判断，来自团队在内部实验中的直接观察。过去一段时间，行业对VLA 寄予了很高期待，希望它像语言模型那样，在数据规模持续放大后自动释放出更强的泛化能力。但从他们的实践看，这条曲线并没有如预期那样陡峭增长。即便训练数据从早期的一万小时扩展到数万小时，模型在预训练阶段呈现出的能力提升仍然有限，真正把任务成功率拉到 95% 甚至 99% 的，依旧高度依赖后训练与场景定制。

这意味着，问题不再是“数据还不够多”这么简单，而是现有路线本身的规模效应开始显露边界。也因此，朱政把世界模型视为下一阶段的替代方案与增强方案：一方面，它可以作为新的基础模型，直接学习未来状态预测；另一方面，它也可以与 VLA 结合，为动作生成提供显空间或隐空间的未来推演，从而减少无效动作，提高多任务能力，并在少样本任务上表现出更好的适应性。这也是现场讨论中最重要的共识之一：世界模型不是为了替代一切，而是为了补上 VLA 在物理预测与跨任务扩展上的关键缺口。

数据策略必须从“单一路径崇拜”转向“多源异构协同”，视觉仍是当前最现实的入口

在数据问题上，朱政展现出一种明显更务实的态度。他并不认同行业里频繁出现的“押注某一种数据范式”的做法，而是更强调多源数据的互补性。从团队实践来看，遥操作数据、第一视角数据、互联网视频、公开数据、自采数据以及模型生成数据，都有各自的训练价值，关键不在于孤注一掷，而在于怎样把这些不同分布的数据组织进同一套训练体系中。

与此同时，他也明确划出了阶段边界。今天真正适合大规模预训练的，仍然主要是视觉数据，因为它采集成本最低、规模最大、成熟度也最高。至于触觉、摩擦力、手感、力反馈等决定机器人精细交互上限的模态，虽然极其重要，但暂时还不足以支撑通用预训练，只能更多进入后训练与具体任务优化环节。现场问答也把这一点讲得更透：家庭场景数据当然珍贵，但它的采集高度敏感，隐私与合规问题远比自动驾驶复杂得多；因此，行业当前不可能等待所有模态、所有场景都成熟后再起跑，而必须先从视觉入口建立第一代可用的世界模型能力，再逐步向更完整的物理交互推进。

商业化的正确顺序，不是先讲家庭故事，而是先把工业与半服务场景跑通

朱政对技术演进与商业次序的判断非常清楚。他并没有把“进入家庭”当作眼下最现实的目标，而是把行业拆成两个阶段：第一阶段是工业场景和半服务场景，第二阶段才是更开放、更复杂的通用服务与家庭环境。前者的好处在于任务边界相对清晰、后训练可控、交付路径明确，因而更适合作为模型迭代的训练场；后者虽然想象空间最大，却需要更强的泛化、更高的安全性以及更低的成本门槛。

这一判断也在问答中得到了充分补充。当前在仓储、搬运、分拣、商业服务等场景中，机器人已经能在经过少量场景化后训练后完成稳定交付，某些任务只需要几千条数据和一两天续训，就能把模型调整到可用状态。相比之下，真正通向家庭的“下一代模型”必须满足更高要求：不仅要能覆盖几十种甚至上百种任务，还要具备一遍示范就能学习新任务的能力。换句话说，今天行业能够成立的是“场景闭环”，而不是“通用闭环”；谁先把前者做好，谁才有资格继续往后者走。

通往家庭机器人的最后门槛，不只是模型，而是端侧算力、灵巧手与整机成本

如果说工业场景验证的是“能不能用”，那么家庭场景考验的就是“能不能长期用、低成本用、自然地用”。朱政在现场给出的判断相当直接：真正阻碍家庭机器人进入大众市场的，从来不只是模型能力，还包括端侧部署、整机价格、电池续航、系统可靠性以及灵巧手等关键硬件能力。按照分享中的披露，当前可交付产品在端侧运行的依然是轻量级模型，世界模型路线本身还无法直接在现有终端上完成实时部署；而整机成本和售价也仍处在普通家庭难以接受的区间。

比成本更深的一层，是精细操作能力尚未成熟。现场讨论中，多位嘉宾把问题集中到了“手”上：灵巧手、触觉传感器、摩擦反馈和高自由度控制，并不是简单外挂一个硬件模块就能解决的，而是牵涉到模型、感知、执行器和数据采集方式的系统工程。朱政的判断是，这部分能力极其重要，但距离真正的高性能、低成本、可规模化仍有很长距离。也正因此，世界模型的价值不在于今天立刻替我们完成家庭机器人，而在于它为下一阶段提供了正确方向：从只会做固定动作的机器人，走向能够预测、适应、迁移和学习的物理世界智能体。

在这场专题分享中，朱政真正抛出的，不只是一个技术热词，而是一条很清晰的产业判断：物理世界AI 的下一阶段，不会由更复杂的 Demo 定义，而将由新的基础模型定义。VLA 证明了机器人可以开始理解任务，世界模型要解决的，则是机器人如何理解世界。谁能率先把预测能力、数据体系、场景闭环和本体能力接成一体，谁才更有机会在物理世界 AI 的新纪元里占据真正的入口。

往期推荐

AI 蓝鲸汇 × 万界方舟：给 AI 初创企业的 token 福利

本文来自微信公众号“T-ONE创新中心”，作者：AI 蓝鲸汇，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

极佳视界朱政：世界模型是物理世界 AI 的下一代基础设施