具身智能正火热，背后藏着半个自动驾驶圈

智驾是最简单的具身

自动驾驶用十年证明，在特定场景里“做到能用”比“看起来像人”更重要，具身智能正在重演这个真理。

2017年的自动驾驶，曾经相信终局会很快到来。

那一年，L4、L5被反复讨论，无人驾驶出租车被视为触手可及的未来。但十年过去，改变行业格局的并非最早承诺“无人驾驶”的公司，而是那些率先把辅助驾驶装进量产车、跑通数据闭环的人。

今天的具身智能，站在相似的节点。

在刚刚结束的智源大会现场，人形机器人端咖啡、打乒乓球、做动态分拣吸引了众多围观者，“机器人的ChatGPT时刻”也成为被频繁讨论的话题。

但在另一边，越来越多从自动驾驶行业走出来的创业者，却在谈论如何找到第一个能够稳定运行的场景，如何建立真实世界的数据闭环，以及如何让机器人先“跑起来来，再变聪明”。

星源智创始人刘东把自动驾驶称为“最简单的具身”。在他看来，从二维空间里的避障导航，到三维空间里的物理交互，机器人面对的是比自动驾驶更复杂的问题。

具身智能是在复刻智驾的叙事节奏吗？为什么从智驾过来的人成为行业变阵的关键变量，他们带来的“渐进式落地”思路，会让具身智能走出一条不同的路吗？

当一个尚未到来的时刻成为行业图腾

智源大会现场，银河通用创始人兼CTO王鹤认为机器人的ChatGPT时刻，是指模型具备零样本能力，无需专门学习即可在特定场景完成70%到80%的人类技能，且具备极高的可访问性，初中毕业的人就能操作。

星源智创始人刘东则认为：“现在具身也是，大家瞄着实际应用的场景去做，但是L2能落地的也还不多，差不多是2015、2016年的智驾状态，刚刚起步。”

2017年前后，自动驾驶行业同样弥漫着类似的乐观预期：L4级无人驾驶被普遍认为“三到五年量产”，但与此同时，真实的量产车里，连在高速上保持车道和自适应跟车都还在打磨。

无论是彼时的自动驾驶，还是今天的具身智能，都是“终局先于路径被讨论”，行业先形成了对于未来的集体想象，再回头寻找通往未来的工程路线。

智源大会的现场，这种错位以另一种形式呈现。人形机器人端咖啡、跟人类打乒乓球、在流水线上做动态分拣，这些Demo在展台前围满了观众。

与此同时，星源智最新发布的ω-EVA模型在LIBERO上的成功率达到98.6%，在RoboTwin上的任务成功率从88.9%提升到90.3%。

数字很漂亮，但刘东在采访时还是给出了相对冷静的落地分层：纯移动的巡检、导览已经比较成熟；抓放操作解决了90%的场景，但还有一些品类抓不好；至于酒店打扫、家庭服务等复杂操作，“短期落地还是比较困难”。

这并不意味着Demo没有价值。恰恰相反，在一个新兴技术领域，Demo是技术路线可行性的必要证明。

但需要区分的是，Demo证明的是“这件事在特定条件下可以做到”，而交付要求的是“这件事在多变条件下反复做到”。

这两者之间的鸿沟，自动驾驶用了10年才走完。

奈何资本和产业端的热情已经提前就位。智源研究院院长王仲远提到，本届大会汇聚了至少15家以上估值超过百亿的具身智能CEO，“具身智能与人形机器人”是报名最火的论坛之一。

这让人很难不联想到2017年自动驾驶圈的“All in AI”，那时只要项目里有“自动驾驶”四个字，估值和曝光都会自动上一个台阶。

但现实的商业进度，未必跟上了叙事的节奏。星源智是少数能拿出具体落地案例的公司：叉车上的具身大脑、机器狗在开放场景里捡垃圾、物流场景里的自动化拣选。

刘东提到，这些合作是跟客户“一事一议”谈出来的，数据需要共享，场景需要定制。这不是那种“发布即通用”的叙事，而是先找到一个具体的场景，让系统在里面跑起来，再谈泛化。

所以，如果一定要在自动驾驶和具身智能之间画一条线，可能不是叙事重叠，而是两个行业在相似阶段，面临着同一种诱惑。

一代智驾人的“二次创业”

像刘东一样有着自动驾驶背景的创始人，在具身智能领域不在少数。

自动驾驶解决了“让车在平面上不撞东西”的问题，而具身智能要处理的是“让设备在三维空间里与物体发生交互”。刘东把智驾比喻为最简单的具身，“因为智驾当时做的时候，是在平面范围内避开所有的物体，跟物体不发生交互。

现在具身领域，除了精确的导航行走之外，还要跟三维空间的物体进行交互。”

从“避开”到“拿起”，这个区别听起来只是动作复杂度的增加，但在工程实现上，却是一套完全不同的系统约束。

在自动驾驶里，摄像头和激光雷达主要做环境感知和障碍物识别，决策链路相对清晰：看到、判断、绕行。而在具身智能里，设备不仅要“看到”一个杯子，还要判断“怎么拿”“拿起来会不会洒”“放下去的位置准不准”。

力控、触觉、多模态同步，这些在自动驾驶里几乎不存在的课题，在具身智能里成了日常功课。

所以，当这批从智驾过来的人进入具身领域时，他们带来的不只是技术栈的迁移，还有一套已经跑过的产业记忆。

2017年的自动驾驶行业，曾经集体陷入“全栈自研”的诱惑，算法、硬件、数据、车辆，全部自己干。当时的逻辑是，只有闭环才能做出最好的体验。但后来的产业现实证明，在销量规模起来之前，全栈自研是一个极其昂贵的赌局。

在问及“头部公司做全栈会不会影响你们”时，刘东的回答带着这种经验的痕迹：“在真正的销量没有起来之前，是没有办法支撑一个公司做全栈研发投入的，除非你已经大到像特斯拉这种规模，账上根本不缺钱。”

他进一步判断，市面上近两百家具身公司里，真正有能力全栈闭环的“顶多就两三家”，更多的公司会面临一个选择题：自己从头研发大脑，还是从第三方采购？

自动驾驶行业最终证明，全栈自研的门槛极高，只有少数车企能够负担。因此行业逐渐分化：一部分资金和技术实力较强的新势力选择深度自研，而更多车企，包括部分传统大厂和缺乏自研基因的新品牌，开始转向与华为、Momenta、大疆、百度等供应商合作，或采取"部分模块自研+核心算法外采"的折中路线。

刘东认为，具身智能领域也会呈现类似格局：“有些公司擅长做本体，有些公司擅长做模型，类似于我们以前看自动驾驶在整车行业的发展。”

基于这种判断，星源智选择了“不自己做本体”，外界曾把星源智比作“具身赛道的华为”，提供大脑模型和端侧算力平台，覆盖市面上70%以上的头部本体客户。

这个选择本身，很难说是因为2017年的“失败教训”，还是仅仅因为工程师们已经习惯了产业链分工的效率逻辑。但有一点是明确的：当一个团队已经经历过“什么都想自己做”的阶段，他们在进入新战场时，会更早地思考“什么应该让别人做”。

除了商业模式的分化，从智驾过来的人还带来了一套对“落地”的务实认知。

在自动驾驶领域，他们经历过“云端算力还是车端算力”的路线之争，知道控制时延对安全系统的意义。

这种经验在具身智能里被重新激活：刘东在解释为什么必须端侧部署时，给出的不是技术偏好，而是物理约束，十几个摄像头加三个激光雷达，每秒数据量是几个G，如果靠Wi-Fi或5G传云端，“机器人已经撞上了，云端还在推理”。

所以，他们更早地接受了“端侧闭环”的必然性，而不是把它当作一个可选项来讨论。

具身智能难以“大力出奇迹”

回看自动驾驶发展历程，曾经最受关注的是L5和Robotaxi，但率先进入交通系统的，是ADAS和L2+辅助驾驶。

它们没有L5那么令人兴奋，却在不断运行中积累数据、完善系统，让自动驾驶拥有了继续进化的土壤。

具身智能也在经历类似的过程。家庭保姆机器人仍然遥远，通用机器人大脑也尚未成熟，但叉车、机器狗、物流拣选等场景已经开始落地。它们未必最像人，却最有机会率先跑通数据闭环。

如果说ADAS是自动驾驶通往L4的桥梁，那么今天的叉车和机器狗，就是具身智能通往AGI的桥梁。

刘东把落地难度分为三层，第一层是“纯移动”：巡检、导览、导购，机器人只需要在空间里行走、识别目标、拍照记录，不需要与物体发生复杂的物理交互。这一层已经比较成熟，星源智的机器狗在开放场景里捡垃圾、做清洁，就是这层的应用。

第二层是“抓放操作”，仓库里的拣选、药店的上下料、工厂里的简单搬运。刘东坦承，这一层已经解决了90%的场景，但“还有一些品类是抓不好的，成功率也不高”。这10%的缺口，听起来很小，但在真实商业环境里，可能就是客户是否愿意签单的关键。对应到2017年的自动驾驶，这很像“高速NOA”刚上线时的状态：能跑，但还不敢让用户完全脱手。

第三层是“复杂操作”，酒店打扫、家庭服务、精细装配。这些场景涉及多步骤任务链、非结构化环境、柔性物体的操作，刘东的判断是“短期落地还是比较困难”。

这种“分层”既带着从智驾移植过来的工程务实，也受限于具身智能的数据约束。星源智联合创始人孙振国在采访中提到，大语言模型可以从互联网上免费获取几乎无限的语料，但具身智能没有“互联网级别的物理数据”。

各地政府牵头建的数采厂，投入了大量机器人设备去采集动作数据，但采集到的数据量对于超大规模训练来说，仍然远远不够。大语言模型可以堆到几百B甚至上千B的参数，而具身模型目前还在几B、几十B的规模徘徊。

这个瓶颈意味着，具身智能不可能像大语言模型那样，通过“大力出奇迹”的方式一夜之间突破。它必须像自动驾驶一样，在具体的场景里一圈一圈地跑，用真实的物理交互去喂养模型。

刘东在描述叉车的落地案例时，给出了一个很有说服力的细节：以前物流仓库里也有自动化方案，但它们是“基于规则的”必须保证卡车停在准确的位置，货物有准确的托盘，托盘有准确的形状。

而具身大脑的价值在于，它可以“柔性地面对不同任务”，卡车大小不同、货物形态各异、托盘可有可无，系统仍然能自主规划卸货逻辑，先卸什么后卸什么，避免碰撞和卸不干净。

这种“柔性”，不是通过更大的模型一次性实现的，而是通过“特定场景的数据闭环”慢慢磨出来的。

星源智的叉车项目用了“两个月左右”做出第一版系统，这个速度在具身智能领域算是很快，但刘东强调，他们复用了之前的算法基座，并且“完全端侧部署”。

这也对应了刘东对未来格局的判断：具身大脑公司最终会“分化成不同垂类的专长公司”，有些擅长家庭场景，有些擅长物流场景，有些擅长工业操作。这很像自动驾驶分化出的格局：高速NOA、城市NOA、记忆泊车、代客泊车……每个细分赛道里都长出了专门的公司。

所以，回到最初的问题，具身智能是在重演自动驾驶吗？答案是，叙事的节奏确实相似，终极目标被提前消费，Demo和交付之间存在落差，行业在一开始都会追逐最“像人”的解决方案。

但相似的开局，未必导向相同的结局。

自动驾驶花了十年证明，决定胜负的，不是谁最早喊出无人驾驶，而是谁先找到能够持续产生数据的场景。

今天的具身智能落地场景远比自动驾驶更分散，人形机器人、家庭服务、通用大脑依然是行业共同追逐的终局，但在终局到来之前，决定行业走向的，或许是仓库里的叉车、园区里的机器狗、流水线上的机械臂……

它们未必最“像人”，却最先让机器人学会成长。

本文来自微信公众号“奇点研究社”，作者：妍旭，编辑：孟雯，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

火热的具身智能，藏着半个自动驾驶圈

当一个尚未到来的时刻成为行业图腾

一代智驾人的“二次创业”

具身智能难以“大力出奇迹”