首页文章详情

火热的具身智能,藏着半个自动驾驶圈

奇点研究社2026-06-17 12:03
智驾是最简单的具身

自动驾驶用十年证明,在特定场景里“做到能用”比“看起来像人”更重要,具身智能正在重演这个真理。

2017年的自动驾驶,曾经相信终局会很快到来。

那一年,L4、L5被反复讨论,无人驾驶出租车被视为触手可及的未来。但十年过去,改变行业格局的并非最早承诺“无人驾驶”的公司,而是那些率先把辅助驾驶装进量产车、跑通数据闭环的人。

今天的具身智能,站在相似的节点。

在刚刚结束的智源大会现场,人形机器人端咖啡、打乒乓球、做动态分拣吸引了众多围观者,“机器人的ChatGPT时刻”也成为被频繁讨论的话题。

但在另一边,越来越多从自动驾驶行业走出来的创业者,却在谈论如何找到第一个能够稳定运行的场景,如何建立真实世界的数据闭环,以及如何让机器人先“跑起来来,再变聪明”。

星源智创始人刘东把自动驾驶称为“最简单的具身”。在他看来,从二维空间里的避障导航,到三维空间里的物理交互,机器人面对的是比自动驾驶更复杂的问题。

具身智能是在复刻智驾的叙事节奏吗?为什么从智驾过来的人成为行业变阵的关键变量,他们带来的“渐进式落地”思路,会让具身智能走出一条不同的路吗?

当一个尚未到来的时刻成为行业图腾

智源大会现场,银河通用创始人兼CTO王鹤认为机器人的ChatGPT时刻,是指模型具备零样本能力,无需专门学习即可在特定场景完成70%到80%的人类技能,且具备极高的可访问性,初中毕业的人就能操作。

星源智创始人刘东则认为:“现在具身也是,大家瞄着实际应用的场景去做,但是L2能落地的也还不多,差不多是2015、2016年的智驾状态,刚刚起步。”

2017年前后,自动驾驶行业同样弥漫着类似的乐观预期:L4级无人驾驶被普遍认为“三到五年量产”,但与此同时,真实的量产车里,连在高速上保持车道和自适应跟车都还在打磨。

无论是彼时的自动驾驶,还是今天的具身智能,都是“终局先于路径被讨论”,行业先形成了对于未来的集体想象,再回头寻找通往未来的工程路线。

智源大会的现场,这种错位以另一种形式呈现。人形机器人端咖啡、跟人类打乒乓球、在流水线上做动态分拣,这些Demo在展台前围满了观众。

与此同时,星源智最新发布的ω-EVA模型在LIBERO上的成功率达到98.6%,在RoboTwin上的任务成功率从88.9%提升到90.3%。

数字很漂亮,但刘东在采访时还是给出了相对冷静的落地分层:纯移动的巡检、导览已经比较成熟;抓放操作解决了90%的场景,但还有一些品类抓不好;至于酒店打扫、家庭服务等复杂操作,“短期落地还是比较困难”。

这并不意味着Demo没有价值。恰恰相反,在一个新兴技术领域,Demo是技术路线可行性的必要证明。

但需要区分的是,Demo证明的是“这件事在特定条件下可以做到”,而交付要求的是“这件事在多变条件下反复做到”。

这两者之间的鸿沟,自动驾驶用了10年才走完。

奈何资本和产业端的热情已经提前就位。智源研究院院长王仲远提到,本届大会汇聚了至少15家以上估值超过百亿的具身智能CEO,“具身智能与人形机器人”是报名最火的论坛之一。

这让人很难不联想到2017年自动驾驶圈的“All in AI”,那时只要项目里有“自动驾驶”四个字,估值和曝光都会自动上一个台阶。

但现实的商业进度,未必跟上了叙事的节奏。星源智是少数能拿出具体落地案例的公司:叉车上的具身大脑、机器狗在开放场景里捡垃圾、物流场景里的自动化拣选。

刘东提到,这些合作是跟客户“一事一议”谈出来的,数据需要共享,场景需要定制。这不是那种“发布即通用”的叙事,而是先找到一个具体的场景,让系统在里面跑起来,再谈泛化。

所以,如果一定要在自动驾驶和具身智能之间画一条线,可能不是叙事重叠,而是两个行业在相似阶段,面临着同一种诱惑。

一代智驾人的“二次创业”

像刘东一样有着自动驾驶背景的创始人,在具身智能领域不在少数。

自动驾驶解决了“让车在平面上不撞东西”的问题,而具身智能要处理的是“让设备在三维空间里与物体发生交互”。刘东把智驾比喻为最简单的具身,“因为智驾当时做的时候,是在平面范围内避开所有的物体,跟物体不发生交互。

现在具身领域,除了精确的导航行走之外,还要跟三维空间的物体进行交互。”

从“避开”到“拿起”,这个区别听起来只是动作复杂度的增加,但在工程实现上,却是一套完全不同的系统约束。

在自动驾驶里,摄像头和激光雷达主要做环境感知和障碍物识别,决策链路相对清晰:看到、判断、绕行。而在具身智能里,设备不仅要“看到”一个杯子,还要判断“怎么拿”“拿起来会不会洒”“放下去的位置准不准”。

力控、触觉、多模态同步,这些在自动驾驶里几乎不存在的课题,在具身智能里成了日常功课。

所以,当这批从智驾过来的人进入具身领域时,他们带来的不只是技术栈的迁移,还有一套已经跑过的产业记忆。

2017年的自动驾驶行业,曾经集体陷入“全栈自研”的诱惑,算法、硬件、数据、车辆,全部自己干。当时的逻辑是,只有闭环才能做出最好的体验。但后来的产业现实证明,在销量规模起来之前,全栈自研是一个极其昂贵的赌局。

在问及“头部公司做全栈会不会影响你们”时,刘东的回答带着这种经验的痕迹:“在真正的销量没有起来之前,是没有办法支撑一个公司做全栈研发投入的,除非你已经大到像特斯拉这种规模,账上根本不缺钱。”

他进一步判断,市面上近两百家具身公司里,真正有能力全栈闭环的“顶多就两三家”,更多的公司会面临一个选择题:自己从头研发大脑,还是从第三方采购?

自动驾驶行业最终证明,全栈自研的门槛极高,只有少数车企能够负担。因此行业逐渐分化:一部分资金和技术实力较强的新势力选择深度自研,而更多车企,包括部分传统大厂和缺乏自研基因的新品牌,开始转向与华为、Momenta、大疆、百度等供应商合作,或采取"部分模块自研+核心算法外采"的折中路线。

刘东认为,具身智能领域也会呈现类似格局:“有些公司擅长做本体,有些公司擅长做模型,类似于我们以前看自动驾驶在整车行业的发展。”

基于这种判断,星源智选择了“不自己做本体”,外界曾把星源智比作“具身赛道的华为”,提供大脑模型和端侧算力平台,覆盖市面上70%以上的头部本体客户。

这个选择本身,很难说是因为2017年的“失败教训”,还是仅仅因为工程师们已经习惯了产业链分工的效率逻辑。但有一点是明确的:当一个团队已经经历过“什么都想自己做”的阶段,他们在进入新战场时,会更早地思考“什么应该让别人做”。

除了商业模式的分化,从智驾过来的人还带来了一套对“落地”的务实认知。

在自动驾驶领域,他们经历过“云端算力还是车端算力”的路线之争,知道控制时延对安全系统的意义。

这种经验在具身智能里被重新激活:刘东在解释为什么必须端侧部署时,给出的不是技术偏好,而是物理约束,十几个摄像头加三个激光雷达,每秒数据量是几个G,如果靠Wi-Fi或5G传云端,“机器人已经撞上了,云端还在推理”。

所以,他们更早地接受了“端侧闭环”的必然性,而不是把它当作一个可选项来讨论。

具身智能难以“大力出奇迹”

回看自动驾驶发展历程,曾经最受关注的是L5和Robotaxi,但率先进入交通系统的,是ADAS和L2+辅助驾驶。

它们没有L5那么令人兴奋,却在不断运行中积累数据、完善系统,让自动驾驶拥有了继续进化的土壤。

具身智能也在经历类似的过程。家庭保姆机器人仍然遥远,通用机器人大脑也尚未成熟,但叉车、机器狗、物流拣选等场景已经开始落地。它们未必最像人,却最有机会率先跑通数据闭环。

如果说ADAS是自动驾驶通往L4的桥梁,那么今天的叉车和机器狗,就是具身智能通往AGI的桥梁。

刘东把落地难度分为三层,第一层是“纯移动”:巡检、导览、导购,机器人只需要在空间里行走、识别目标、拍照记录,不需要与物体发生复杂的物理交互。这一层已经比较成熟,星源智的机器狗在开放场景里捡垃圾、做清洁,就是这层的应用。

第二层是“抓放操作”,仓库里的拣选、药店的上下料、工厂里的简单搬运。刘东坦承,这一层已经解决了90%的场景,但“还有一些品类是抓不好的,成功率也不高”。这10%的缺口,听起来很小,但在真实商业环境里,可能就是客户是否愿意签单的关键。对应到2017年的自动驾驶,这很像“高速NOA”刚上线时的状态:能跑,但还不敢让用户完全脱手。

第三层是“复杂操作”,酒店打扫、家庭服务、精细装配。这些场景涉及多步骤任务链、非结构化环境、柔性物体的操作,刘东的判断是“短期落地还是比较困难”。

这种“分层”既带着从智驾移植过来的工程务实,也受限于具身智能的数据约束。星源智联合创始人孙振国在采访中提到,大语言模型可以从互联网上免费获取几乎无限的语料,但具身智能没有“互联网级别的物理数据”。

各地政府牵头建的数采厂,投入了大量机器人设备去采集动作数据,但采集到的数据量对于超大规模训练来说,仍然远远不够。大语言模型可以堆到几百B甚至上千B的参数,而具身模型目前还在几B、几十B的规模徘徊。

这个瓶颈意味着,具身智能不可能像大语言模型那样,通过“大力出奇迹”的方式一夜之间突破。它必须像自动驾驶一样,在具体的场景里一圈一圈地跑,用真实的物理交互去喂养模型。

刘东在描述叉车的落地案例时,给出了一个很有说服力的细节:以前物流仓库里也有自动化方案,但它们是“基于规则的”必须保证卡车停在准确的位置,货物有准确的托盘,托盘有准确的形状。

而具身大脑的价值在于,它可以“柔性地面对不同任务”,卡车大小不同、货物形态各异、托盘可有可无,系统仍然能自主规划卸货逻辑,先卸什么后卸什么,避免碰撞和卸不干净。

这种“柔性”,不是通过更大的模型一次性实现的,而是通过“特定场景的数据闭环”慢慢磨出来的。

星源智的叉车项目用了“两个月左右”做出第一版系统,这个速度在具身智能领域算是很快,但刘东强调,他们复用了之前的算法基座,并且“完全端侧部署”。

这也对应了刘东对未来格局的判断:具身大脑公司最终会“分化成不同垂类的专长公司”,有些擅长家庭场景,有些擅长物流场景,有些擅长工业操作。这很像自动驾驶分化出的格局:高速NOA、城市NOA、记忆泊车、代客泊车……每个细分赛道里都长出了专门的公司。

所以,回到最初的问题,具身智能是在重演自动驾驶吗?答案是,叙事的节奏确实相似,终极目标被提前消费,Demo和交付之间存在落差,行业在一开始都会追逐最“像人”的解决方案。

但相似的开局,未必导向相同的结局。

自动驾驶花了十年证明,决定胜负的,不是谁最早喊出无人驾驶,而是谁先找到能够持续产生数据的场景。

今天的具身智能落地场景远比自动驾驶更分散,人形机器人、家庭服务、通用大脑依然是行业共同追逐的终局,但在终局到来之前,决定行业走向的,或许是仓库里的叉车、园区里的机器狗、流水线上的机械臂……

它们未必最“像人”,却最先让机器人学会成长。

本文来自微信公众号“奇点研究社”,作者:妍旭,编辑:孟雯,36氪经授权发布。