首页文章详情

极佳视界朱政:世界模型是物理世界 AI 的下一代基础设施

星连资本2026-06-08 17:29
近日,AI蓝鲸汇世界模型第二期《新范式下的世界模型引领空间智能》专题,特邀极佳视界联合创始人、首席科学家朱政,带来《世界模型:开启物理世界 AI 新时代》的主题分享。

AI 蓝鲸汇  由多名资深 AI 从业者与投资人共同创建,以“小规模、高规格、深度交流”为核心,长期邀请一线 AI 从业者、技术专家、创业者与投资人,围绕真实产业议题展开坦诚对话,致力于发现与培育优质 AI 项目,帮助更多青年创业者在 AI 浪潮中找到真正可落地的方向。 

在世界模型第二期专题中, AI 蓝鲸汇  将目光投向具身智能与空间智能这一关键交汇点。相比单纯讨论“模型能力有多强”,本次分享更关注一个正在逼近产业核心的问题:当具身智能从实验室热潮走向产业竞速,行业真正需要回答的,已经不只是“机器人能不能动起来”,而是“它能否在复杂真实世 界中,稳定完成几十种、上百种任务” 

近日,AI蓝鲸汇世界模型第二期《新范式下的世界模型引领空间智能》专题,特邀极佳视界联合创始人、首席科学家朱政,带来《世界模型:开启物理世界 AI 新时代》的主题分享。围绕世界模型、VLA、空间智能、端侧部署与具身场景落地等前沿议题,朱政与现场嘉宾展开了深入交流。 

这场分享的价值,并不在于再次解释“世界模型”这一热门概念,而在于把资本市场与技术圈的热词重新拆回工程现实:为什么 VLA 的规模效应尚未如预期释放?为什么世界模型正在被视为下一代基础模型的重要方向?数据、端侧部署、灵巧手、成本与家庭场景之间,又到底卡在哪些真正决定产业进程的瓶颈上? 

世界模型的真正意义,在于把机器人从“执行动作”推进到“理解世界”

朱政对世界模型的定义,并不是把它当作视频生成、空间重建或具身智能之外的独立分支,而是把它视为物理世界AI 的下一代基础模型。过去几年,行业首先完成了语言基础模型的爆发,随后开始进入具身基础模型阶段;而在他看来,再往前走,真正能够支撑机器人进入开放环境、多任务场景和家庭空间的,不会只是一个更大的动作模型,而是一个能够对世界状态进行预测和压缩的模型体系。 

这也是他反复强调“世界模型不是为了做演示,而是为了做落地”的原因。对单一任务、封闭工位或固定流程而言,当前的具身模型加后训练已经可以取得相当高的成功率;但一旦目标变成跨场景、跨任务、跨本体的能力迁移,问题立刻变了。机器人不再只是完成一个预设动作,而必须理解环境变化、推演行为后果,并在任务之间建立可迁移的表征。正是在这个意义上,世界模型才构成了“物理世界 AI 新时代”的起点:它让机器人开始从“动作执行器”走向“世界理解器”。 

从VLA 走向 World Model,是因为旧路线的规模效应正在变弱

朱政分享中最有分量的判断,来自团队在内部实验中的直接观察。过去一段时间,行业对VLA 寄予了很高期待,希望它像语言模型那样,在数据规模持续放大后自动释放出更强的泛化能力。但从他们的实践看,这条曲线并没有如预期那样陡峭增长。即便训练数据从早期的一万小时扩展到数万小时,模型在预训练阶段呈现出的能力提升仍然有限,真正把任务成功率拉到 95% 甚至 99% 的,依旧高度依赖后训练与场景定制。 

这意味着,问题不再是“数据还不够多”这么简单,而是现有路线本身的规模效应开始显露边界。也因此,朱政把世界模型视为下一阶段的替代方案与增强方案:一方面,它可以作为新的基础模型,直接学习未来状态预测;另一方面,它也可以与 VLA 结合,为动作生成提供显空间或隐空间的未来推演,从而减少无效动作,提高多任务能力,并在少样本任务上表现出更好的适应性。这也是现场讨论中最重要的共识之一:世界模型不是为了替代一切,而是为了补上 VLA 在物理预测与跨任务扩展上的关键缺口。 

数据策略必须从“单一路径崇拜”转向“多源异构协同”,视觉仍是当前最现实的入口

在数据问题上,朱政展现出一种明显更务实的态度。他并不认同行业里频繁出现的“押注某一种数据范式”的做法,而是更强调多源数据的互补性。从团队实践来看,遥操作数据、第一视角数据、互联网视频、公开数据、自采数据以及模型生成数据,都有各自的训练价值,关键不在于孤注一掷,而在于怎样把这些不同分布的数据组织进同一套训练体系中。 

与此同时,他也明确划出了阶段边界。今天真正适合大规模预训练的,仍然主要是视觉数据,因为它采集成本最低、规模最大、成熟度也最高。至于触觉、摩擦力、手感、力反馈等决定机器人精细交互上限的模态,虽然极其重要,但暂时还不足以支撑通用预训练,只能更多进入后训练与具体任务优化环节。现场问答也把这一点讲得更透:家庭场景数据当然珍贵,但它的采集高度敏感,隐私与合规问题远比自动驾驶复杂得多;因此,行业当前不可能等待所有模态、所有场景都成熟后再起跑,而必须先从视觉入口建立第一代可用的世界模型能力,再逐步向更完整的物理交互推进。 

商业化的正确顺序,不是先讲家庭故事,而是先把工业与半服务场景跑通

朱政对技术演进与商业次序的判断非常清楚。他并没有把“进入家庭”当作眼下最现实的目标,而是把行业拆成两个阶段:第一阶段是工业场景和半服务场景,第二阶段才是更开放、更复杂的通用服务与家庭环境。前者的好处在于任务边界相对清晰、后训练可控、交付路径明确,因而更适合作为模型迭代的训练场;后者虽然想象空间最大,却需要更强的泛化、更高的安全性以及更低的成本门槛。 

这一判断也在问答中得到了充分补充。当前在仓储、搬运、分拣、商业服务等场景中,机器人已经能在经过少量场景化后训练后完成稳定交付,某些任务只需要几千条数据和一两天续训,就能把模型调整到可用状态。相比之下,真正通向家庭的“下一代模型”必须满足更高要求:不仅要能覆盖几十种甚至上百种任务,还要具备一遍示范就能学习新任务的能力。换句话说,今天行业能够成立的是“场景闭环”,而不是“通用闭环”;谁先把前者做好,谁才有资格继续往后者走。 

通往家庭机器人的最后门槛,不只是模型,而是端侧算力、灵巧手与整机成本

如果说工业场景验证的是“能不能用”,那么家庭场景考验的就是“能不能长期用、低成本用、自然地用”。朱政在现场给出的判断相当直接:真正阻碍家庭机器人进入大众市场的,从来不只是模型能力,还包括端侧部署、整机价格、电池续航、系统可靠性以及灵巧手等关键硬件能力。按照分享中的披露,当前可交付产品在端侧运行的依然是轻量级模型,世界模型路线本身还无法直接在现有终端上完成实时部署;而整机成本和售价也仍处在普通家庭难以接受的区间。 

比成本更深的一层,是精细操作能力尚未成熟。现场讨论中,多位嘉宾把问题集中到了“手”上:灵巧手、触觉传感器、摩擦反馈和高自由度控制,并不是简单外挂一个硬件模块就能解决的,而是牵涉到模型、感知、执行器和数据采集方式的系统工程。朱政的判断是,这部分能力极其重要,但距离真正的高性能、低成本、可规模化仍有很长距离。也正因此,世界模型的价值不在于今天立刻替我们完成家庭机器人,而在于它为下一阶段提供了正确方向:从只会做固定动作的机器人,走向能够预测、适应、迁移和学习的物理世界智能体。 

在这场专题分享中,朱政真正抛出的,不只是一个技术热词,而是一条很清晰的产业判断:物理世界AI 的下一阶段,不会由更复杂的 Demo 定义,而将由新的基础模型定义。VLA 证明了机器人可以开始理解任务,世界模型要解决的,则是机器人如何理解世界。谁能率先把预测能力、数据体系、场景闭环和本体能力接成一体,谁才更有机会在物理世界 AI 的新纪元里占据真正的入口。 

往期推荐 

AI 蓝鲸汇 × 万界方舟:给 AI 初创企业的 token 福利

本文来自微信公众号“T-ONE创新中心”,作者:AI 蓝鲸汇,36氪经授权发布。