首页文章详情

“零数据”机器人来了,验证两月即可上岗,这群清华博士破局世界模型,靠“本能”让机器人上手就会

AI前线2026-06-10 10:38
机器人的行为无穷无尽,但底层规律却逃不过这三条

用一只机械手拾起桌面上的银行卡,需要几个自由度?

三个?五个?多数人的直觉都是越多越稳妥,最好再配上触觉、视觉、力控……毕竟,这活儿连人手也未必一次成功。

但偏偏有一家清华系的机器人公司不信邪,把这套方案砍到了一个自由度。

你看到的模块,甚至都谈不上机械手,更像是产线上最常见的工业夹爪:两块楔形黑色夹片,沿固定导轨运动,像鸟嘴一样咬合。

夹片内侧被银色的触觉传感材料包裹。除此之外,没有外置摄像头,没有云端大脑,也没有学习过任何“示范性的轨迹数据”。一切都发生在端侧的本地。

但它却能夹起那张厚度不到 1 毫米、平贴台面的白色卡片。更准确地说,它不是“夹”起,而是“撬”起:一侧夹片先压住卡片的边缘,以桌面当支点,另一端则被顶起;对应的夹片顺势合拢,两侧同时发力,将卡片整张提起。

正如视频所见,整个过程并不优雅,甚至有点笨:角度偏一些、力度大一点,卡片就会滑落。但它会一次次试、一次次修正,最后总能找到更合适的着力点

对实验结果感到诧异的不只有你。就连橡木果机器人(Acorn Robot)的发起人姜峣(清华机械工程博士、哈佛大学神经科学博士后)都称之为“惊喜”。“它不是一次成功,”他回忆道,“但试了八九次之后,它竟然自己找到了办法。”

谈及此处,姜峣的眼神里仍带着兴奋,像极了第一次在语言模型身上感受到智能涌现。他将机器人这套“靠自己摸索出来的策略”称之为“本能驱动下的行为涌现”;驱动它的,是橡木果的端侧自主决策模型 Natus。

该模块是橡木果面向 B 端柔性制造场景的首款产品,目前已走完国内 Top1 化妆品企业的概念验证(POC)阶段,实现了规模化部署。

在橡木果的研发管线里,还有更多形态的执行模块。它们每天孜孜不倦地练习抓取各种物品:从矿泉水瓶到橡胶软球,从香蕉到豆腐,以及异形不规则件。

这些看似笨拙的试探,都指向了同一个发现:

如果机器人在几乎没有“示范数据模板”的情况下,依然能靠实践摸索出有效策略,那执行层真正缺的,可能并不是更多的轨迹数据,而是一套能激发它“先动起来、先试起来”的底层机制

这也是姜峣面对当前主流具身路线最犀利的反思:VLA、世界模型、仿真学习并非毫无价值,但它们太容易在操作执行的“最后一厘米”掉链子。

执行侧:具身智能最沉默的困局

无论是试图端到端闭环的 VLA,还是推演物理未来的“世界模型”,本质上都带着语言模型“大力出奇迹”的惯性:以为只要看过的视频够多、数据喂得够足,操作智能就能自然涌现。但一旦涉足真实的物理交互,这套逻辑无疑将撞上两座大山:接触与本体

操作的本质是物理接触,摩擦、阻尼、力传导……这些现在世界里无处不在的变量,在世界模型却难以稳定建模。它或许能精准地生成一段“机器人抓取水杯”的预测视频,但却无法算出指尖与杯壁接触瞬间的相对摩擦,更无法预判玻璃滑落前那微小的形变。

视觉上的“看起来会”,掩盖不了执行层的“做不到”。

此外,操作必须通过具体的本体去执行,而每台机器人的关节磨损、装配松紧都有微小差异。橡木果团队做过对比实验:两台同款夹爪,采用同一套模型参数,仅仅是导轨松紧存在差异,在执行侧的效果也会大相径庭。

接触的不可预测与本体的微小差异,注定了数据驱动的路线是个填不满的无底洞。行为模式难以穷尽,模型训练必须覆盖所有场景和硬件偏差,但哪怕全球最大的开源机器人数据集已达到百万回合的运动轨迹,依然无法激发出模型在执行层的泛化能力。

图注:Open X-Embodiment (OXE) 目前全球最大的开源机器人数据集,包含来自全球 34 个研究实验室的 22 种不同机器人载体收集的超过一百万个机器人回合。

更要命的是,在按秒计费的产线上,没人等得起大模型数秒才能走完的推理闭环,VLA 动辄数秒的延迟,连进场作业的资格都没有。

这让姜峣坚信:没有绝对通用的最好模型,只有最适配这台机器的模型。VLA 想用数据解决操作问题,但采集成百上千小时的高质量遥操作数据,本身就需要极高的操作门槛。

“操作一定要在实践中学习,但实践的前提是你必须先能够实践起来。”这是姜峣对于机器人执行的第二个关键判断,它揭示了 VLA 在执行侧的死穴,同时也是橡木果“另起炉灶”的起点。

跨界学科撞出的无人区

这套判断,并非从文献推导来的。

在清华机械工程系读博期间,姜峣天天和阻抗控制、力学建模打交道,这让他对物理交互有着根深蒂固的直觉:操作的本质是力学行为,而非视觉问题

2016 年,他去哈佛做神经科学博士后,研究方向变成了人脑的运动控制。实验室做了大量感知干扰实验:屏蔽视觉、干扰触觉,观察人手操作的变化。他发现,无论怎么干扰,人类最基本的抓取动作始终不变。

“那个永远不变的部分,就是本能,”姜峣意识到。语言没环境学不会,但没人教过婴儿怎么抓东西,全人类却抓得高度一致。这不是因为见过了足够多的场景,而是因为有一套基于触觉和力学的先天机制。

两套看起来八竿子打不着的学科语言在姜峣身上对齐了:操作的本质不是拟合视觉轨迹,而是力学规律;人类的通用操作能力,源于本能,而非数据。

把“本能”移植给机器人,这在当时是绝对的“无人区”。2018 年回国建实验室时,“具身智能”还没出圈,VLA 尚未大行其道,同行觉得他在讲玄学,投资人听不懂……

姜峣没有急着说服外界,而是极其审慎地培养同路人:实验室会要求大二便进组观察,先看能力,更看“是否理解数据驱动解决不了执行侧死结、是否相信本能”。算法再强但不认同这一点的人,他不要。新成员进组,必须经实验室全体博士生认可。最长的一位,更是跟了他 10 年。

2024 年创业时,组里 8 位博士一致选择加入了橡木果。更罕见的是,这些人私下有个共识:如果公司哪天不坚守“本能驱动”,他们就不继续效力。这不是创业故事里常见的情怀,而是认知共识在对抗行业惯性前,必须建立的防线。

因为他们要找的,是“操作层面的万有引力”。

是规律,不是规则

这意味着必须放弃拟合轨迹的执念。牛顿没有穷尽每一条运动轨迹,而是用一条不含任何运动参数的万有引力定律,支配了所有运动。姜峣把同样的逻辑搬到了操作上:VLA 在学轨迹,橡木果在找规律。

规则是把操作算法写死,而规律只给约束。基于对物理交互的下探,姜峣将这条规律提炼为三类操作本能:

定向本能解决“去哪”——与视觉协同,指引末端向目标移动,就像婴儿看到移动物体时自然转头追随;

探索本能解决“怎么碰”——这是最复杂、也最体现智能涌现的一环。接触发生后,机器人不依赖预设程序或模仿,而是沿物体表面自主试探,寻找稳定的接触构型;

执行交互本能解决“怎么抓”——以“滑移最小化”为核心,实时调节抓取力度。抓豆腐时轻柔,抓锤子时紧实,装配时自适应阻力。所有调控全凭触觉实时反馈,无需任何训练数据。

没有人告诉开篇的那个夹爪“从侧面撬卡片”,它只有“找到稳定接触”的底层期望,撬的动作便在物理约束下自然涌现

但要让这套本能真正闭环,必须跨过一个关键技术门槛:滑移感知。“就像你站在高铁上,想感知车厢和地面的相对速度,”姜峣解释,“你嵌在其中一方,几乎没有参照物。”

团队花了 7 年,迭代十余版原型机,才把微米级滑移感知做到稳定可用。有了它,机器人遇到任何物体,都能在接触中实时感知“要滑了”并自动修正——不需要提前知道物体是什么。这也是零数据冷启动能够成立的物理基石。

有了这三套“本能规律”,便可激发机器的无穷多行为。

Natus 与 Magis:从本能到技能

被 Natus 模型驱动的“行为涌现”,在端侧可实时控制:200Hz 响应,毫秒级延时,无云端依赖,出厂时针对具体硬件的力学特性单独适配。它的核心使命,就是解开前文那个“没能力就不能实践”的死结:让机器人“第一天上产线就能用”

但一直靠本能探索效率太低,这便是第二层模型 Magis 存在的意义。

Natus 探索产生的数据,不是普通的视频轨迹,而是带有触觉语义的记录:视觉看到“一根香蕉”,触觉同步标注“重 120 克,质心偏左,表皮粗糙”。

这类带力学标注的视觉数据送入 Magis 训练,得到的技能模型对物理世界的理解,远比纯视觉数据深得多——它知道怎么抓,而不只是看起来像在抓。

Magis 成熟后,熟悉场景可直接调用技能,陌生场景则退回 Natus 探索,新数据再沉淀进 Magis。一方面本能持续涌现,可以兜底;另一方面技能越积越厚,不断进化。

“我们颠覆了现在所有数据采集的方式,”姜峣说,“最好的数据来源不是仿真,不是人工遥操,而是产品自己在真实物理世界里跑出来的。”

换产不停线:零数据的真实价码

这套“自己跑出数据、自己长出技能”的能力,最迫切的场景在哪?

橡木果选择了柔性制造,姜峣认为,这是权衡过执行侧门槛和市场痛点后最佳的交叉点。

化妆品 ODM 行业是典型。SKU 超百种,几周一换,每次换产就要停线调参,它的痛点不是机器不够快,是机器认不出新物料。更棘手的是物料本身:粉饼极度易碎,稍用力就留印;香薰灯芯细软不均,力大了拔出,力小了拽不动。这类任务无法用规则覆盖,VLA 训练成本极高,传统自动化束手无策。

但对 Natus 来说,换了 SKU,只需自己探索,不停线、不调参、不叫工程师,这才是“零数据冷启动”对产线的真实价值。

据介绍,橡木果在国内头部化妆品企业完成 POC,从启动到验证不到两个月,随即进入规模化部署,在手订单突破 2000 万元。

图注:具身智能的两条技术路径:自上而下数据拟合 vs 自下而上本能驱动

对于技术路线更长期的判断,姜峣认为,Natus 和大模型从来不是竞争,而是分工:大模型负责理解任务、规划步骤,Natus/Magis 负责毫秒级的物理执行,一个做规划,一个做操作,接口协同,各司其职。

这不是妥协,而是回归操作本质的必然。就像生物进化把操作反射交给了脊髓,而不是每次触觉都等大脑重新决策——这个判断,从他 8 年前在哈佛和清华的跨界碰撞中,就没变过。

本文来自微信公众号“AI前线”(ID:ai-front),作者:四月,36氪经授权发布。