验证两月即可上岗！“零数据”机器人来袭，清华博士团队破局世界模型，靠“本能”让机器人上手就会

机器人的行为无穷无尽，但底层规律却逃不过这三条

用一只机械手拾起桌面上的银行卡，需要几个自由度？

三个？五个？多数人的直觉都是越多越稳妥，最好再配上触觉、视觉、力控……毕竟，这活儿连人手也未必一次成功。

但偏偏有一家清华系的机器人公司不信邪，把这套方案砍到了一个自由度。

你看到的模块，甚至都谈不上机械手，更像是产线上最常见的工业夹爪：两块楔形黑色夹片，沿固定导轨运动，像鸟嘴一样咬合。

夹片内侧被银色的触觉传感材料包裹。除此之外，没有外置摄像头，没有云端大脑，也没有学习过任何“示范性的轨迹数据”。一切都发生在端侧的本地。

但它却能夹起那张厚度不到 1 毫米、平贴台面的白色卡片。更准确地说，它不是“夹”起，而是“撬”起：一侧夹片先压住卡片的边缘，以桌面当支点，另一端则被顶起；对应的夹片顺势合拢，两侧同时发力，将卡片整张提起。

正如视频所见，整个过程并不优雅，甚至有点笨：角度偏一些、力度大一点，卡片就会滑落。但它会一次次试、一次次修正，最后总能找到更合适的着力点。

对实验结果感到诧异的不只有你。就连橡木果机器人（Acorn Robot）的发起人姜峣（清华机械工程博士、哈佛大学神经科学博士后）都称之为“惊喜”。“它不是一次成功，”他回忆道，“但试了八九次之后，它竟然自己找到了办法。”

谈及此处，姜峣的眼神里仍带着兴奋，像极了第一次在语言模型身上感受到智能涌现。他将机器人这套“靠自己摸索出来的策略”称之为“本能驱动下的行为涌现”；驱动它的，是橡木果的端侧自主决策模型 Natus。

该模块是橡木果面向 B 端柔性制造场景的首款产品，目前已走完国内 Top1 化妆品企业的概念验证（POC）阶段，实现了规模化部署。

在橡木果的研发管线里，还有更多形态的执行模块。它们每天孜孜不倦地练习抓取各种物品：从矿泉水瓶到橡胶软球，从香蕉到豆腐，以及异形不规则件。

这些看似笨拙的试探，都指向了同一个发现：

如果机器人在几乎没有“示范数据模板”的情况下，依然能靠实践摸索出有效策略，那执行层真正缺的，可能并不是更多的轨迹数据，而是一套能激发它“先动起来、先试起来”的底层机制。

这也是姜峣面对当前主流具身路线最犀利的反思：VLA、世界模型、仿真学习并非毫无价值，但它们太容易在操作执行的“最后一厘米”掉链子。

执行侧：具身智能最沉默的困局

无论是试图端到端闭环的 VLA，还是推演物理未来的“世界模型”，本质上都带着语言模型“大力出奇迹”的惯性：以为只要看过的视频够多、数据喂得够足，操作智能就能自然涌现。但一旦涉足真实的物理交互，这套逻辑无疑将撞上两座大山：接触与本体。

操作的本质是物理接触，摩擦、阻尼、力传导……这些现在世界里无处不在的变量，在世界模型却难以稳定建模。它或许能精准地生成一段“机器人抓取水杯”的预测视频，但却无法算出指尖与杯壁接触瞬间的相对摩擦，更无法预判玻璃滑落前那微小的形变。

视觉上的“看起来会”，掩盖不了执行层的“做不到”。

此外，操作必须通过具体的本体去执行，而每台机器人的关节磨损、装配松紧都有微小差异。橡木果团队做过对比实验：两台同款夹爪，采用同一套模型参数，仅仅是导轨松紧存在差异，在执行侧的效果也会大相径庭。

接触的不可预测与本体的微小差异，注定了数据驱动的路线是个填不满的无底洞。行为模式难以穷尽，模型训练必须覆盖所有场景和硬件偏差，但哪怕全球最大的开源机器人数据集已达到百万回合的运动轨迹，依然无法激发出模型在执行层的泛化能力。

图注：Open X-Embodiment (OXE) 目前全球最大的开源机器人数据集，包含来自全球 34 个研究实验室的 22 种不同机器人载体收集的超过一百万个机器人回合。

更要命的是，在按秒计费的产线上，没人等得起大模型数秒才能走完的推理闭环，VLA 动辄数秒的延迟，连进场作业的资格都没有。

这让姜峣坚信：没有绝对通用的最好模型，只有最适配这台机器的模型。VLA 想用数据解决操作问题，但采集成百上千小时的高质量遥操作数据，本身就需要极高的操作门槛。

“操作一定要在实践中学习，但实践的前提是你必须先能够实践起来。”这是姜峣对于机器人执行的第二个关键判断，它揭示了 VLA 在执行侧的死穴，同时也是橡木果“另起炉灶”的起点。

跨界学科撞出的无人区

这套判断，并非从文献推导来的。

在清华机械工程系读博期间，姜峣天天和阻抗控制、力学建模打交道，这让他对物理交互有着根深蒂固的直觉：操作的本质是力学行为，而非视觉问题。

2016 年，他去哈佛做神经科学博士后，研究方向变成了人脑的运动控制。实验室做了大量感知干扰实验：屏蔽视觉、干扰触觉，观察人手操作的变化。他发现，无论怎么干扰，人类最基本的抓取动作始终不变。

“那个永远不变的部分，就是本能，”姜峣意识到。语言没环境学不会，但没人教过婴儿怎么抓东西，全人类却抓得高度一致。这不是因为见过了足够多的场景，而是因为有一套基于触觉和力学的先天机制。

两套看起来八竿子打不着的学科语言在姜峣身上对齐了：操作的本质不是拟合视觉轨迹，而是力学规律；人类的通用操作能力，源于本能，而非数据。

把“本能”移植给机器人，这在当时是绝对的“无人区”。2018 年回国建实验室时，“具身智能”还没出圈，VLA 尚未大行其道，同行觉得他在讲玄学，投资人听不懂……

姜峣没有急着说服外界，而是极其审慎地培养同路人：实验室会要求大二便进组观察，先看能力，更看“是否理解数据驱动解决不了执行侧死结、是否相信本能”。算法再强但不认同这一点的人，他不要。新成员进组，必须经实验室全体博士生认可。最长的一位，更是跟了他 10 年。

2024 年创业时，组里 8 位博士一致选择加入了橡木果。更罕见的是，这些人私下有个共识：如果公司哪天不坚守“本能驱动”，他们就不继续效力。这不是创业故事里常见的情怀，而是认知共识在对抗行业惯性前，必须建立的防线。

因为他们要找的，是“操作层面的万有引力”。

是规律，不是规则

这意味着必须放弃拟合轨迹的执念。牛顿没有穷尽每一条运动轨迹，而是用一条不含任何运动参数的万有引力定律，支配了所有运动。姜峣把同样的逻辑搬到了操作上：VLA 在学轨迹，橡木果在找规律。

规则是把操作算法写死，而规律只给约束。基于对物理交互的下探，姜峣将这条规律提炼为三类操作本能：

定向本能解决“去哪”——与视觉协同，指引末端向目标移动，就像婴儿看到移动物体时自然转头追随；

探索本能解决“怎么碰”——这是最复杂、也最体现智能涌现的一环。接触发生后，机器人不依赖预设程序或模仿，而是沿物体表面自主试探，寻找稳定的接触构型；

执行交互本能解决“怎么抓”——以“滑移最小化”为核心，实时调节抓取力度。抓豆腐时轻柔，抓锤子时紧实，装配时自适应阻力。所有调控全凭触觉实时反馈，无需任何训练数据。

没有人告诉开篇的那个夹爪“从侧面撬卡片”，它只有“找到稳定接触”的底层期望，撬的动作便在物理约束下自然涌现。

但要让这套本能真正闭环，必须跨过一个关键技术门槛：滑移感知。“就像你站在高铁上，想感知车厢和地面的相对速度，”姜峣解释，“你嵌在其中一方，几乎没有参照物。”

团队花了 7 年，迭代十余版原型机，才把微米级滑移感知做到稳定可用。有了它，机器人遇到任何物体，都能在接触中实时感知“要滑了”并自动修正——不需要提前知道物体是什么。这也是零数据冷启动能够成立的物理基石。

有了这三套“本能规律”，便可激发机器的无穷多行为。

Natus 与 Magis：从本能到技能

被 Natus 模型驱动的“行为涌现”，在端侧可实时控制：200Hz 响应，毫秒级延时，无云端依赖，出厂时针对具体硬件的力学特性单独适配。它的核心使命，就是解开前文那个“没能力就不能实践”的死结：让机器人“第一天上产线就能用”。

但一直靠本能探索效率太低，这便是第二层模型 Magis 存在的意义。

Natus 探索产生的数据，不是普通的视频轨迹，而是带有触觉语义的记录：视觉看到“一根香蕉”，触觉同步标注“重 120 克，质心偏左，表皮粗糙”。

这类带力学标注的视觉数据送入 Magis 训练，得到的技能模型对物理世界的理解，远比纯视觉数据深得多——它知道怎么抓，而不只是看起来像在抓。

Magis 成熟后，熟悉场景可直接调用技能，陌生场景则退回 Natus 探索，新数据再沉淀进 Magis。一方面本能持续涌现，可以兜底；另一方面技能越积越厚，不断进化。

“我们颠覆了现在所有数据采集的方式，”姜峣说，“最好的数据来源不是仿真，不是人工遥操，而是产品自己在真实物理世界里跑出来的。”

换产不停线：零数据的真实价码

这套“自己跑出数据、自己长出技能”的能力，最迫切的场景在哪？

橡木果选择了柔性制造，姜峣认为，这是权衡过执行侧门槛和市场痛点后最佳的交叉点。

化妆品 ODM 行业是典型。SKU 超百种，几周一换，每次换产就要停线调参，它的痛点不是机器不够快，是机器认不出新物料。更棘手的是物料本身：粉饼极度易碎，稍用力就留印；香薰灯芯细软不均，力大了拔出，力小了拽不动。这类任务无法用规则覆盖，VLA 训练成本极高，传统自动化束手无策。

但对 Natus 来说，换了 SKU，只需自己探索，不停线、不调参、不叫工程师，这才是“零数据冷启动”对产线的真实价值。

据介绍，橡木果在国内头部化妆品企业完成 POC，从启动到验证不到两个月，随即进入规模化部署，在手订单突破 2000 万元。

图注：具身智能的两条技术路径：自上而下数据拟合 vs 自下而上本能驱动

对于技术路线更长期的判断，姜峣认为，Natus 和大模型从来不是竞争，而是分工：大模型负责理解任务、规划步骤，Natus/Magis 负责毫秒级的物理执行，一个做规划，一个做操作，接口协同，各司其职。

这不是妥协，而是回归操作本质的必然。就像生物进化把操作反射交给了脊髓，而不是每次触觉都等大脑重新决策——这个判断，从他 8 年前在哈佛和清华的跨界碰撞中，就没变过。

本文来自微信公众号“AI前线”（ID：ai-front），作者：四月，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

“零数据”机器人来了，验证两月即可上岗，这群清华博士破局世界模型，靠“本能”让机器人上手就会

执行侧：具身智能最沉默的困局

跨界学科撞出的无人区

是规律，不是规则

Natus 与 Magis：从本能到技能

换产不停线：零数据的真实价码