具身智能机器人年度总结,来自英伟达机器人主管
“机器人领域仍处于蛮荒时代。”
这是英伟达机器人主管Jim Fan,在2025年,即将收官之际给出的判断。
乍一听,这个结论多少有些刺耳。
毕竟,在这一年里,我们已经看到机器人打乒乓球、打篮球,完成复杂的长程搬运与跨场景任务——
当然,也少不了各种翻车“冥”场面。
但就像Jim Fan,以及聪明的网友反复指出的那样:
很多演示,本质上只是从上百次尝试中,挑选出来的最好一次。
这背后,恰恰暴露出机器人领域至今缺乏统一、可复现的标准评测体系的核心问题。
也正因如此,几乎人人都能通过添加限定词,宣称自己达到了SOTA。
除此之外,Jim Fan还指出——
当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。
以下为分享全文:
2025年,机器人领域教给我的3件事
所有人都在为vibe coding感到兴奋。在节日气氛中,请允许我分享一下我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的3个教训。
硬件走在软件前面,但硬件可靠性严重限制了软件迭代速度
我们已经看到了极其精妙的工程杰作:Optimus、e-Atlas、Figure、Neo、G1等等。
但问题是,我们最好的AI还远没有把这些前沿硬件的潜力榨干。(机器人)身体的能力,明显强过大脑目前能发出的指令。
然而,要“伺候”这些机器人,往往需要一整个运维团队。
机器人不像人类那样会自我修复:过热、马达损坏、诡异的固件问题,几乎是日常噩梦。
错误一旦发生,就是不可逆、也不宽容的。
真正被scaling的,只有我的耐心。
机器人领域的基准测试,依然是一场史诗级灾难
在大模型世界里,人人都知道MMLU、SWE-Bench是怎么回事。
但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接上真实世界?
按定义来说,每个人都是SOTA——因为每次发新闻,都会临时定义一个新的benchmark。
每个人都会从100次失败里,挑出那次最好看的demo。
到2026年,我们这个领域必须做得更好,不能再把可复现性和科学规范当成二等公民。
基于VLM的VLA路线,总感觉不太对
VLA指的是Vision-Language-Action(视觉-语言-动作)模型,目前这是机器人大脑的主流范式。
配方也很简单:拿一个预训练好的VLM checkpoint,在上面“嫁接”一个动作模块。
但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的,这直接带来两个后果:
VLM的大多数参数,都服务于语言和知识,而不是物理世界;
视觉编码器被主动训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,微小细节对灵巧操作至关重要。
因此,VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。
相比之下,视频世界模型(video world model)显然是一个更合理的机器人策略预训练目标。我正在在这个方向上下重注。
在Jim Fan的推文下面,不少网友也表示了赞同。
有网友表示,硬件的容错能力确实非常重要:
硬件约束导致迭代变慢,是一个常被低估的瓶颈。软件可以高频更新,但物理系统必须建立在可靠的机械基础上,而这需要真实时间去验证和打磨。
硬件很关键,但数据很重要
在Jim Fan的讨论中,硬件被放到了核心位置,但与此同时,我们也发现数据作为一个核心元素被忽略了。
在机器人研究中,数据塑造模型能力,而模型的发挥又离不开硬件,这是其典型的全栈特性。
在今年,我们已经看到了像Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等全新硬件本体。
从展示效果看,这些新硬件在运动能力上表现亮眼:
无论是宇树的翻跟头,还是小鹏机器人的步态控制,都已明显超出年初的平均水平,并且证明了大型机器人(成年人身高)也能像小型机器人一样灵活。
但真正现实的问题可能正如Jim和网友谈到的,如何在维持高性能的同时,进一步提升硬件可靠性,例如抗摔性、电池发热、长时间运行稳定性等工程层面的挑战。
在数据方面,今年最值得注意的例子之一是Generalist,它通过大量的数据规模证明了具身智能的Scaling law。
其中,数据越大,模型参数越高,模型在具体任务上的表现也就越好,符合我们在LLM上观察到的现象。
与此同时,也出现了像Sunday这样方便数据采集的定制化机器人硬件。
这套系统与机器人的手部协同设计,利用技能捕捉手套采集人类动作数据,并能以近90%的成功率转换为机器人可用数据。
同样受到关注的还有Egocentric-10K,一个汇集了1万小时工作数据的大型数据集。
可以说,在具身智能领域,数据的重要性已不言自明。但具体的数据路线仍未收敛:人类中心采集(可穿戴设备、Umi、视频)、真机遥操数据、仿真数据,以及互联网数据、数据模态、配比仍是开放问题。
2025机器人年度词汇——VLA
在模型方面,VLA毫无疑问是2025机器人领域最热的词汇。
根据伦敦国王学院、香港理工大学等研究机构的最新综述,仅2025年一年就发表了超200篇VLA工作。
前段时间更是有网友调侃道:2026年可能会有一万篇VLA工作。
那么,VLA到底是啥呢?
简单来说,VLA 赋予了机器人一个大脑,这个“大脑”可以同时处理以下三种模态的信息:
视觉 (Vision, V): 通过摄像头感知环境,理解物体的形状、位置、颜色、状态和场景布局。
语言 (Language, L): 理解人类的自然语言指令(例如,“把桌上的红苹果放到碗里”)并进行高层推理。
动作 (Action, A): 将理解的指令转化为机器人可以执行的低级物理动作序列(例如,移动关节、抓取、推动等)。
传统机器人通常需要为每个新任务进行专门编程或训练,而VLA模型通过大规模数据学习,能够执行训练中未明确见过的任务,甚至在陌生环境下也能工作,从而具备泛化性。
但正如Jim Fan在上面提到的,基于VLM (视觉-语言模型) 的VLA模型,其骨架本质上是为问答和知识推理而优化的,其庞大的参数库和服务目标,与机器人所需的物理世界精细操作存在严重错位。
在这篇综述中,我们也找到了对Jim Fan提出的观点的一些回应,以问答形式梳理如下:
Q:VLM的视觉编码器倾向丢弃低层物理细节,仅保留高层语义(如“这是苹果”)。而这些微小细节恰恰决定了抓取、推动等动作的成功率
A:未来的 VLA 需要整合物理驱动的世界模型,内部表征 3D 几何、物理动态、因果关系和可供性,实现语义指令与物理精度的统一。
Q:由于VLM预训练目标与机器人控制不对齐,增加模型参数并不会线性提升性能。
A:通过“形态无关表征”解耦高层语义规划与低层本体感知控制,使通用机器人大脑能够通过轻量适配器实现零样本跨具身迁移,从而发挥数据规模带来的泛化能力,而非盲目堆叠参数。
Q:Jim Fan建议以视频世界模型作为机器人预训练目标,因为它天然编码时序动态与物理规律。
A:当前研究趋势是将世界模型能力“嫁接”到VLM上,例如训练数据驱动模拟器学习物理动态,再嵌入VLA作为解耦内部模拟器,实现显式规划,使VLA从“被动序列生成器”转向主动物理感知智能体。
此外,在数据和评测基准方面,综述更倾向“仿真派”,提出以模拟优先、失败为中心的数据范式。
一方面,依赖真实世界的大规模异构数据不可持续,未来需转向高保真模拟环境生成多样化轨迹。
另一方面,应充分利用失败轨迹,从中学习,提高数据利用效率。
在评测方面,现有标准过于依赖二元成功率,难以反映鲁棒性、效率和安全裕度。未来必须进行更全面的能力评估。
One more thing
最后插播两条趋势性消息:
据摩根士丹利的研究,机器人产业有望从当前的910亿美元激增至2050年的25万亿美元。
与此同时,硅谷巨头除微软/Anthropic外,全部加码机器人软/硬件。
所以,虽然现实很骨感,但机器人题材依旧sexy~
参考链接
[1]https://suyuz1.github.io/Survery/
[2]https://x.com/DrJimFan/status/2005340845055340558[3]https://x.com/rohanpaul_ai/status/2004891515878080673
本文来自微信公众号“量子位”,作者:henry,36氪经授权发布。