具身智能数据战：群核建道场、百度铺管道、京东搭舞台

当Scaling Law撞上物理世界

表面是数据之争，实则是数据如何被连接与流动的规则之争。

最近具身智能的数据战打得火热。

前有腾讯发布Tairos具身智能开放平台，后京东又上线了具身智能数据交易平台，还要发动60万人采集1000万小时。

不久前，百度也推出具身智能数据超市，想要解决困扰行业已久的数据质量参差不齐、格式标准不一、使用成本高等痛点。

上周亦庄的人形机器人马拉松大赛，更是把具身智能的热度推向高潮。

荣耀机器人「闪电」跑完21公里，净用时50分26秒，打破了人类男子半马世界纪录。一时间，评论区沸腾，“历史性时刻”，“部署态元年”到来！

但仔细研究，会发现这更像一场“机械能力”的突破，而非“AI能力”的突破。「闪电」之所以能跑出这个成绩，靠的是 0.95 米大长腿、自研液冷系统、电机关系从 420Nm 提升到 600Nm。

这些都是工程能力的积累，是荣耀把过去十几年消费电子里的轻量化和结构设计能力，迁移到了机器人上。如果把同一套算法塞进另一台机器人，大概率跑不出这个成绩。

问题不在算法，而在“具身智能”这个词，装了太多含义。

连续跑21公里是一件事；能帮你干活，是另一件事；能在产线上连续工作8小时不停机，又是完全不同的一件事

而这三件事，对应的是三种完全不同的数据需求。

“缺数据”喊了三年，但没人说清到底缺什么

“整个互联网上能训练的数据一共就没有多少T，现在已经快不够用了。”国内某头部大模型厂商创始人在采访中说，“现在大家更多是用检索增强来落地B端，C端还是需要基座模型的进化才能突破。”

这是大模型（LLM）领域的真实焦虑。

如今，LLM的“数据焦虑”正蔓延到具身智能。去任何一场机器人相关的论坛，几乎所有人都在说，数据不够，是最大的瓶颈。

但如果再往下追问，到底缺的是什么数据？答案却千差万别。

LLM之所以能够跑通规模定律（Scaling Law），有一个不能忽视的大前提：互联网文本本身就是一个“闭环系统”。

一句话里同时包含意图、语义、甚至隐含的推理路径。模型要做的，便是不断从这些闭环中提取规律。

所以你只需要“多喂”，模型“悟”得越多，能力就会自然涌现。

但具身智能没有这样的闭环。

你可以采集100万小时的人类生活视频，但里面并没有机器人应该如何控制关节的信息；你可以构建1000万个仿真场景，但它们往往缺少真实世界里的噪声与长尾分布；你也可以通过遥操作积累10万条任务数据，但一旦更换机器人本体，迁移效果就会明显打折。

具身智能的数据，不是“被收集”的，而是在物理世界中被“制造”的。

而且不同类型的数据，对“规模”的反应也完全不同。所以把LLM的那一套逻辑原封不动搬过来，本身就是一种误判。

如果把具身智能的数据拆开来看，会更清晰一些。它大致可以分为三类：运动控制、场景理解与任务决策。

运动控制数据告诉机器人“怎么动”，比如关节角度、力矩、运动轨迹等，这类数据高度绑定特定本体，天然不具备规模化复用能力。

场景理解数据告诉机器人“看到了什么”，比如视觉、空间、物体识别等，因为人看到的世界，和机器人看到的世界，在统计意义上是相似的，所以这类数据是目前唯一有可能跑通Scaling Law的层级。

最难的是任务决策数据，它要告诉机器人“该怎么办”，这是整个体系里最稀缺的一类数据，因为它要求三件事同时成立：感知、判断、执行，而且必须同步标注。

这三类数据，有些可以靠堆量解决，有些则完全行不通，换言之，在具身智能领域，Scaling Law不是“失效了”，而是“分层成立”。

行业里其实已经有人描述过这个问题。戴盟机器人接受媒体采访时，称具身智能的数据供给存在一个金字塔结构。

顶层是机器人本体数据，最精确，但最难扩展；中层是可部署采集数据，在精度和规模之间做平衡；底层是人类视角的大规模数据，最容易放量。

底层数据，可以靠“规模化”堆出来，负责训练“认知”。顶层的数据，必须贴着本体打磨，负责训练“执行”必须精细打磨，不存在“多多益善”。

这也是为什么，单纯谈“数据规模”已经不再有意义，关键在于“你在放大哪一层”。

沿着这个思路，学术界也开始尝试给出新的解法。中山大学发表的开源项目PHYAgentOS，把认知层与执行层解耦，即大模型做认知入口，不做最终执行者。

这背后对应的，是一套新的数据分工方式：底层数据训练认知能力，可以跨本体泛化；顶层数据训练执行能力，始终绑定具体本体。

一旦这一结构成立，数据的使用效率会发生质变：不同层的数据，不再被强行塞进同一个模型里消化。

解决了“数据从何而来”，还要看数据如何“被消化”，这就涉及到当前行业里的几条主流的技术路线。

VLA最常见，也最主流，它把视觉、语言、动作全部压进一个模型，输出控制信号，代表玩家是RT-2和π0，这一路线需要“图像+指令+动作”三者同时存在的数据，缺一不可，采集成本很高，也最难规模化。

第二条路径，是分层大模型。用LLM做高层规划，再调用VLA或传统控制算法执行。它牺牲了一部分端到端的一致性，但换来了更高的数据利用效率。典型代表包括谷歌的Gemini Robotics、北大的RoboOS，以及前面提到的PHYAgentOS。

第三种是当前最受关注的世界模型路线，如DreamDojo、PAR/PhysGen，强调直接从视频里“悟”出物理规律，以及零动作预训练，代表如国外的英伟达，国内的拓元智慧。

但不同玩家对同一路线也有着不同的理解。拓元智慧选择在隐层空间（而非视频画面）做世界推演。

拓元智慧联合创始人陈添水在接受奇点采访时提到：“英伟达的One Action Model主要指建模action（动作），拓元同时建模action和physical，隐层特征（几千维）比视频像素（200万像素）更高效，且能更好地支持action预测。”

物理token自回归的运作方式：预测未来的帧与动作联合体，与真实环境同步演化

图灵奖得主杨立昆提出的JEPA同样属于这一范式，但它更偏向“预测式学习”，即在抽象空间里推演未来状态，学习因果关系。

写到这里，我们会发现，在具身智能领域，脱离模型架构去谈“高质量数据”，本身并没有太大意义。

零次方联合创始人马晓龙采访中的话，精准点出了本质：“数据有没有效，本质是匹配问题。对你的模型有用，对我的架构可能毫无意义，第三方换了场景又可能完全没用。”

群核建道场，百度铺管道，京东搭舞台

带着这样思路再来看最近大厂的数据之争，就会发现他们虽然都在“抢数据”，但抢的，根本不是一个东西。

差异不在“量”，而在“层”。

最底层，是群核科技。群和科技占据的是Scaling Law最可能成立的那一层：“物理正确”的空间数据。

根据招股书，群核已经积累了5亿个3D室内场景、4.8亿个3D模型，这些数据并非“采集”，而是来自真实商业使用中被反复调用、修改、验证的结果。

群核科技推出的InteriorNet数据集（包含约1亿3千万图像数据）

基于这些数据构建的SpatialVerse，是一个“可计算的物理空间”：球被扔出去会下落，门被推开会有阻力，地板存在摩擦力。

物理正确性，意味着它不依赖任何具体模型架构的演进。无论未来是Transformer、世界模型，还是其他范式，机器人最终都必须在符合真实物理规律的环境中完成学习和决策。

这意味着，一旦底层数据的Scaling Law成立，群核的价值会被指数级放大。它不需要押注“哪一个模型会赢”，它押注的是所有模型，都必须进入“道场”。

如果说群核解决的是“数据从哪里来”，那么往上一层，便是百度在做的事情：回答“数据如何流动”。

百度具身智能数据超市，是一个中立的数据流通平台。它不参与机器人本体，也不直接生产数据，而是试图把分散在不同企业、不同场景中的数据“组织起来”。

根据官方披露，目前具身智能数据超市已经接入十余家具身智能企业的数据，总量超过1000万条。同时推出了“繁星计划”，计划招募约100家场景方开放真实空间。

更值得一提的是它的“重服务模式”。“百度数据超市上的数据需专业处理，暂无免费上传机制。我们有高T工程师团队免费支持客户，仅收取算力和存储费用。”百度智能云泛科技创新行业销售总监徐良在采访中提到。

这意味着，它并非一个简单的撮合平台，而更像一个带有强加工能力的“数据代工厂”：数据需要被清洗、标注、结构化，才能进入可用状态。

与此同时，百度还在补另一块更底层的基础设施：数据可信流通。包括云网端安全体系，以及面向出海的合规能力。“目前百度联合头部客户开发的云网端安全方案，已经被应用到出口欧洲的产品中。”徐良补充道。

如果用一个更直观的类比，百度更像是具身智能时代的“Visa”：它不直接参与交易，但决定了数据这笔“交易”，能不能发生、如何发生。

再往上走，是京东。

其实京东的价值有被严重低估。上线具身智能数据交易平台，发动60万人采集1000万小时人类真实场景视频数据，在亦庄马拉松机器人赛事中，京东又作为AI科技战略合作伙伴，提供了运输、救援、换电、维修等全周期保障。

赛事直接带动了超过20个机器人品牌销售额翻倍，相关搜索量激增300%。

表面看是一次品牌和供应链能力的展示，但它真正解决的问题，其实在数据层。具身智能里，有一类数据天然无法复用：运动控制数据。它高度绑定具体本体、具体结构，几乎不具备跨平台迁移能力，也就很难像互联网数据一样形成规模化流通。

这恰恰是Scaling Law最难成立的一层。京东做的事情，是绕过“数据本身的可复用性”，直接让这类数据在真实世界中产生商业价值：通过赛事、销售、服务，把机器人推入高频使用场景，让每一次真实运行，都变成一次有效的数据积累。

当数据本身无法流通时，就用“交易”去放大它的价值。价值驱动需求，需求再反过来推动数据回流，这是在Scaling Law不成立的顶层，少数可行的商业闭环。

群核在最底层，提供“可以无限扩展的道场”；百度在中间层，打通“数据如何被加工与流通的管道”；京东在最上层，搭建“让数据产生价值的真实舞台”。

三者分别押注数据供给金字塔的不同层级，彼此错位，却又环环相扣。

协议之争与终局想象

PHYAgentOS论文中有一句话让我印象很深：Docs as API，不是让 Agent 和硬件系统通过大量隐式消息、临时状态和难以追踪的接口直接耦合，而是通过结构化文档进行交互，核心载体包括 Markdown 文件。

我觉得这指向了具身智能数据之战的终局想象：标准化协议，即不同数据层，如何被同一个系统理解？

底层是空间与视觉，中层是任务与流程，顶层是具体本体的控制信号，它们的数据结构、表达方式、甚至时间尺度都完全不同。

如果没有一套统一的“解释机制”，这些数据就只能各自为政。

问题的核心从“数据供给”，转向“协议连接”。不过现状是，大家都在做自己的标准，构建自己的“局部最优”。

小鹏、阿里、腾讯接连发布了各自的世界模型，英伟达的Cosmos已经在工业仿真上建立了壁垒，李飞飞的Marble API已对外开放，杨立昆的JEPA虽然还在科研期，但代表了最远期的颠覆可能。

各家有各自的数据格式、仿真环境与API体系，背后绑定的是不同的技术路线与产品假设。

短期看，这种分裂不可避免，因为没人会在早期阶段主动放弃对体系的控制权。同时也意味着，协议层的统一，会比想象中更难。

它不会是一蹴而就的标准落地，更可能是一个漫长的博弈，在效率、控制力与生态开放之间反复拉扯，直到某种“足够好”的共识形成。

结尾

荣耀「闪电」用50分26秒证明了机器人的“物理极限”已经超越了人类。

当未来有一天，我们让机器人去做一件没在数据集里出现过的事，比如拿起一个从没见过形状的杯子，用从没标注过的方式，把它放进从没仿真过的架子里，它还能“像人一样”完成，具身智能才算“走到了终点。”

我相信，那一天会比我们想象的更近。

本文来自微信公众号“奇点研究社”，作者：奇点团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

具身智能数据战：群核建道场，百度铺管道，京东搭舞台

“缺数据”喊了三年，但没人说清到底缺什么

群核建道场，百度铺管道，京东搭舞台

协议之争与终局想象

结尾