60万采集大军入场，能否缓解具身行业数据饥渴？

具身智能数据竞争白热化，2026年融资与产能齐升。

2026年4月，具身智能行业迎来了一个重要的密集节点。

成立仅14个月的它石智航完成4.55亿美元Pre-A 轮融资，创下中国具身智能领域单轮融资新高。几乎同一时间，光轮智能披露一季度5.5亿元订单，并确认3月完成10亿元融资，成为全球首个具身数据独角兽。

京东也阶段性发布具身智能进展，发布行业首个具身数据全链路基础设施，发动10万员工+50万社会人员的采集队伍，将建成全球规模最大具身数据采集中心。

这三起事件都指向同一个行业共识：数据已成为具身智能突破落地瓶颈的核心变量。上述企业之所以能启动战略布局，正是凭借各自在数据采集、处理与应用上的差异化积累。

这一系列密集动作，让酝酿已久的具身智能数据竞争，从技术实验室加速走向产业落地。截至2026年初，全球高质量真实物理交互数据总量仅约50万小时，不足大语言模型训练数据的两万分之一。

正是这种极端的资源稀缺性，让数据成为了具身行业竞争的核心筹码。

具身数采四路并进，孤岛难题待解

经过三年的试错，行业已经走出了最初的迷茫，分化出四条技术路线，分别从真机遥操作、便携采集、仿真合成、人类自然演示四个维度破解数据难题。没有哪一条是完美的，但每一条在2026年都迎来了各自的关键节点。

这也是资本愿意在这个时间点密集押注的原因：这些路线不再只是实验室里的方向，而是开始看到规模化落地的可能性。

遥操作真机采集是行业公认质量最高的方案。智元机器人在上海浦东建起4000平米专属工厂，把单机单日数据产量推到了千条级别，专门用来攻克精密装配、复杂操作这类高难度任务。但成本仍是这条路线绕不开的问题——单小时有效数据成本仍在500元以上，而且操作员上手门槛极高，

便携采集（UMI路线）是目前规模化速度最快的方向。鹿明、蚂蚁灵波等公司相继推出量产方案，让数据采集从“数据工厂”解放出来，渗透到家庭、办公室、便利店等真实场景。

但这条路线的“阿喀琉斯之踵”同样清晰：主流UMI设备采集的是夹爪动作，缺乏触觉和力觉反馈，碰到五指灵巧手的精密操作就力不从心；而且数据质量参差不齐，缺乏实时质控的话，一周的采集可能大半是废数据。

仿真合成数据是目前成本最低、产能最大的路线，光轮智能是目前走得最深的玩家。它自研了行业独有的物理模拟引擎，能精准复刻真实世界的物体运动和形变规律。通过“测试-生成-再测试”的循环数据飞轮，能快速产出大量标准化训练数据。

但这条路线的挑战依然突出：虚拟环境永远无法完全模拟真实世界的各种意外，模型从仿真迁移到真机时，摩擦力、阻尼等物理参数的细微偏差，仍可能会导致动作失效。

人类自然演示数据采集是今年资本看好的另一个方向，它石智航是这条路线的代表。它研发的五指智能手套，能精准捕捉人手的动作轨迹和操作力度。工厂师傅、产线工人等只要在真实环境中正常作业，就能完整捕捉手部空间位姿、手指姿态及操作力度。

不过它石也面临不少难题：单套手套成本超过一万元，大规模推广门槛仍然较高。不同工种操作习惯差异大，数据标准化治理难度制约了更多行业的应用推广。

四条路线虽然都在迎来突破，都没能解决一个更根本的问题：数据之间无法互通。家数据格式、标注规范自成体系，形成数据孤岛；多模态数据时空不同步、脏数据泛滥，导致“垃圾进、垃圾出”；供给侧空有场景与采集能力，却缺乏标准化治理与流通体系，大量算法原型困在实验室无法走向量产。

更麻烦的是“数据跟着本体走”的结构性困境：不同品牌、型号机器人的传感器布局、控制模态千差万别，遥操作采集的数据高度依赖特定硬件，无法跨本体复用，每换一套机器人就要重新采集，数据资产无法积累成真正意义上的行业公共财富。

这才是2026年行业竞争真正的难点——四条路线在各自的赛道上都在提速，但数据的孤岛化、碎片化，决定了任何一条单独的路线都无法撑起通用具身智能的未来。

众包模式成押注热门，产能和数据质量如何两全？

京东的入场，为这场竞争带来了一种完全不同的解题思路。

它选择的是一条横跨四条路线的“混合数据路线”——不押注单一技术，而是用自己最擅长的供应链逻辑，把四条路线的优势整合起来，正面迎击行业最棘手的“数据结构失衡”问题。

从发布会公布的“数据金字塔”架构来看，京东几乎覆盖了所有主流采集路径。金字塔最底层是千万小时量级的人类第一视角视频，主要来自京东遍布全国的3600多个仓库和上万家线下门店的日常作业，走的是UMI/Ego路线，解决的是行业最头疼的基础数据不足问题。

往上是百万小时量级的人类实操数据，配合自研的JoyBuilder仿真平台做增广，补齐动作规划和跨本体泛化能力；最顶端则是遥操作和UMI变体产生的高价值数据，用于特定机器人本体的精调。

基于这套数据体系，京东推出了JoyAI-RA具身基础模型，采用“WAM预训练+RL后训练”的双阶段架构：先从海量第一视角视频中学习因果决策，再通过真实世界的交互反馈持续优化。

京东把这套逻辑概括为“不做沉默的矿山，为人类实操数据提供使用说明书”——它要做的不是简单的数据搬运工，而是把原本零散、无意义的生产性劳动，转化为标准化、可复用的训练数据。同时，京东还发布了行业首个具身智能数据交易平台，试图打通数据流通的最后一公里。

这套方案的核心优势在于规模。“60万人、两年内积累1000万小时人类真实场景第一视角视频数据”的目标，本质上是试图将现有的生产性劳动转化为数据生产管线，而不是从零建设专门的数据工厂。这种模式如果跑通，将把基础视觉数据的采集成本降低一个数量级——这是绝大多数初创公司难以复制的结构性优势。

事实上，押注众包采集模式的并非只有京东一家。鹿明机器人已计划投放1万台背包版UMI设备，在六大真实场景开展系统性采集，并构建起千人规模的UMI社群；穹彻智能推出了依托手机即可完成采集的“口袋集采”产品，正在进行小规模众包测试；蚂蚁灵波、觅蜂科技等也纷纷采用众包模式扩大数据产能。

但这些先行者普遍遭遇了相似的困境：缺乏统一的采集标准导致数据质量参差不齐，实时质控能力不足使得大量采集数据沦为废数据，不同场景、不同工种的数据标准化治理更是难上加难，部分公司还因隐私合规问题被迫调整采集范围。

京东的优势在于其拥有的真实场景资源，成熟的大规模组织管理能力，能够将数据采集与现有业务流程深度融合，同时配套了全链路的数据治理基础设施。

但它同样无法回避众包模式的共性难题：如何在保证规模的同时控制数据“杂质率”，如何解决人类自然动作与机器人控制逻辑之间的对齐问题，以及如何在涉及数十万人的行为数据采集中确保全程隐私合规。

尽管还存在着上述有待解答的挑战，但京东的入场，确实为行业提供了一种新的可能性：不是所有公司都有能力造自己的机器人，也不是所有公司都能在单一技术路线上做到极致，但所有公司都需要一个能提供全类型数据、全链路服务的基础设施。

开放平台V.S垂直闭环，谁能定义具身未来？

如果说数据是京东的入场券，那么全链路的供应链能力，才是它真正的底牌。

京东想做的不是一家数据公司，也不是一家机器人公司——它的定位更接近一个产业中间层：用数据、算力、供应链和渠道，把机器人公司的创新能力和消费市场连接起来。

在供给侧，京东不仅提供真实的数据采集场景和云端算力支撑，还有覆盖全球的供应链网络——从核心制造物料的一站式采购，到全链路的组装解决方案，再到Joybuy海外平台的出海服务，帮机器人公司解决从生产到销售的一系列问题。

在需求侧，京东拿出了自己最核心的零售资源：超级品类日、机器人频道页、平台营销IP，配合0门槛入驻自营和售前售中售后全程服务，把流量直接转化为销售。

2026年，京东零售条线的目标是助力机器人品牌伙伴销售额破100亿。对于大多数机器人创业公司来说，最大的痛点往往不是技术，而是商业化——能造出原型机，却很难实现大规模量产，更难把产品卖到消费者手里。京东的全链路服务，指向的正是这个缺口。

JoyInside附身智能平台则是京东连接硬件厂商的核心纽带。通过0服务费、限时免费接入的模式，京东把大模型交互能力注入到各类硬件中，目前已经吸引了近百个家电家居品牌，超40个机器人与AI玩具品牌合作。从四足机器人到人形机器人，从AI玩具到清洁机器人，只要接入JoyInside，就能快速获得大模型交互能力，大大缩短产品研发周期。

这种打法让京东巧妙地避开了与特斯拉、Figure AI在人形机器人本体上的直接竞争，转而切入了产业链中间层。而京东也可以通过这种方式，持续积累不同场景的数据，反过来优化自己的模型，形成“数据-模型-产品-更多数据”的正向循环。

可以将京东这种产业开放模式，与特斯拉的数据闭环模式，进行一个简单的对比。

特斯拉走的是一条“本体即数据工厂”的垂直路线。Optimus Gen 3计划于2026年底发布，目前已在美国弗里蒙特工厂承担拧螺丝、物料搬运等基础测试任务。机器人作业产生的数据与自身硬件天然对齐，无需转换即可直接迭代，数据效率行业领先。这是一个完全封闭的生态，所有数据只为特斯拉自己的机器人服务，且目前仅能覆盖标准化工厂场景。

而京东选择的，是一条面向全行业的开放平台路线。如果说特斯拉是在为自己造“最好的单款机器人”，那么京东是在为所有机器人公司造“最好的产业土壤”。

特斯拉的数据只能服务于Optimus，而京东的数据能力可以开放给所有合作品牌；特斯拉只关心自己的机器人能不能量产，京东则希望帮所有创业公司解决从核心零部件采购、规模化组装到终端销售、售后服务的全链条痛点。

这两种路线各有不可替代的价值。特斯拉的壁垒在于硬件与数据的深度耦合，京东的壁垒在于产业生态的广度与厚度。它们不是非此即彼的竞争关系，而是在不同维度共同推动着行业的进步。

结语

这场具身智能数据竞争最值得关注的地方，或许正在于它的开放性——数据不像芯片，不能被一两家公司垄断；机器人要真正走进工厂和家庭，需要的是整个产业生态的协同，而不是某一条路线的独赢。

更长远地看，当部署场景足够广、机器人数量足够多，数据的生产将从今天的“主动采集”转变为“被动涌现”——每一台在产线上运作的机器人、每一次在家庭里完成的家务，或许都将成为下一代模型的训练素材。

那个时候，数据飞轮才会真正转起来，具身智能也将从今天的数据荒漠，进化成一片自我浇灌、持续生长的生态雨林。

本文来自微信公众号“AI价值官”，作者：AI价值官，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

60万采集大军入场，能解具身行业数据饥渴吗？

具身数采四路并进，孤岛难题待解

众包模式成押注热门，产能和数据质量如何两全？

开放平台V.S垂直闭环，谁能定义具身未来？

结语