本体无关:Generalist 27万小时要掀真机采集场桌子
数据竞赛的关键分水岭,已不再是数据方案的路线之争,而在于是否回归到数据采集的“第一性原理”:追求可复用、可扩展、可演进的规模化数据流。那些执着于单一本体、高成本标注的传统遥操模式,不仅难以支撑Scaling Law所需的数据洪流,更在根本上背离了智能泛化的基本逻辑。
2025年11月4日,美国硅谷机器人公司Generalist AI发布了一个震撼行业的消息:他们的GEN-0具身基础模型在27万小时人类操作视频数据上完成训练,首次在机器人领域验证了Scaling Law的存在。这被业内誉为具身智能的"ChatGPT时刻"。
图片来源:Generalist
27万小时是什么概念?
这一数据量远超目前公开的所有本体机器人数据集,且仍在以每周1万小时的速度增长。与此形成鲜明对比的是,一度被视为“金字塔尖”的存在的真机遥操数据采集模式在效率上陷入了难以逾越的瓶颈,其缓慢的积累速度使其根本无法满足Scaling Laws对数据规模的指数级需求。
真机遥操数据的采集,本质上是一种受限于物理世界的线性积累过程。其典型模式是围绕特定机器人硬件,建立线下数据工场,由操作员通过遥操作真实机器人进行任务演示。这种模式的几个内在特性,决定了其难以跟上Scaling Law的步调:
线性增长与指数需求的对立:Scaling Law揭示,模型性能随着数据规模呈幂律提升,这意味着需要数据量能持续指数级扩张。然而,真机遥操数据采集严重依赖“堆人头”和实机运行,其增长是线性的。每一个数据点的产生,都伴随着真实的硬件磨损、物理运动时间和人力成本。即便建立数百人的采集基地,其年数据产量也往往停留在万小时级别,与Scaling Law所要求的“数据洪流”相去甚远。
物理硬件的“锚定效应”:真实机器人的部署、调试和维护流程复杂,使得数据采集体系刚性且笨重,无法实现灵活、快速的规模化扩展。数据的积累速度被物理硬件的能力和可用性牢牢锁死。有从业者坦言:“我们倾注全力建设的实体工厂,其数据产能天花板清晰可见,这种模式无法支撑我们走向 scaled model。”
不惜成本大搞特搞数据采集,最终只能沉淀出百万级数据集。"就算将注入全部心血搞出的数据集开源,于产业困境而言也不过是杯水车薪。"某具身智能从业者曾对具身研习社表示。
可见,真机遥操数据虽质量更高,但我们仍需要摸索出一条能解决数据规模化的道路。在等待真机数据解锁规模增长的同时,Generalist方案代表的是另一种解法。
诚然,技术路线没有对错之分,拼的是发展路径能否适应AI规模化定律的关键分野。但至此,一道看似无解的题就摆在面前:如何突破数据采集的规模瓶颈?
这题该怎么破?
想解决问题先问问机器人需要什么
破题的第一性原理要回到具身机器人的“语言”中,产业的核心命题从来不是盲目扩张市场规模、追求表面的 “蛋糕做大”,而是沉下心倾听具身机器人的 “真实需求”:它需要什么样的场景土壤、技术支撑与数据养分,才能真正完成从“技术展品”到 产业工具”的跨越?
具身机器人的价值实现,核心在于“用起来”的深层逻辑,即场景应用必须同时满足刚需性、长效性与规模经济性的三重诉求。这三者构成了产业落地的底层支撑:刚需性是场景存在的前提,指向产业未被满足的核心痛点;长效性决定了价值的可持续性,避免短期噱头式应用;规模经济性则是产业规模化的关键,支撑技术迭代与商业闭环的正向循环。
当前行业内频繁出现的表演、展演场景,本质上只是商业化初期的“场景切片”。这类应用虽能直观展示技术进展、吸引市场关注,但远非产业落地的完整图景。具身机器人的真正落地方向,是成为人类劳动的 “协同伙伴”:
一方面将人类从重复性劳动、低价值繁琐事务中解脱,另一方面承接高危、高负荷的作业场景任务,最终深度融入工厂生产、商业服务、特种作业等核心产业场景,实现劳动效率的跃迁与生产模式的升级。
核心产业场景的落地,绝非舞台上依赖预设程序完成标准化动作的表演模式所能支撑。它要求具身机器人跳出“动作复刻”的桎梏,深度理解物理世界的内在肌理与动态运行轨迹。包括环境变量的实时适配、物体属性的精准感知、任务执行的容错边界等核心命题。
换句话说,具身机器人不仅要“会做”,更要“懂做”:明确不同场景下“把事情做对”的标准,理解动作背后的逻辑关联,而非机械执行预设指令。
这种“懂做”的能力,本质是对人类行为模式的系统性拆解、复现与优化。相较于肢体摆动等大开大合的宏观动作,长效落地的产业场景中,核心难点集中于触觉反馈、力控精度、环境感知等精细化交互能力。
“AI教母”李飞飞在其最新发表的空间智能宣言中深刻剖析了这一难题。她指出,空间智能在人类与物理世界的交互中发挥着根本性作用——我们每天都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置,接住从房间另一头扔来的钥匙,或是半睡半醒时不用看就能把咖啡倒进杯子里。
图片来源:A16Z账号截图
然而,让机器人掌握这种能力面临严峻挑战。李飞飞明确指出:"开发这些机器人面临的一个核心挑战是,缺乏适用于各种具身形式的训练数据。"
这意味着,机器人需要掌握更精细的物理交互数据:敲击键盘时如何应对键盘的回弹?拿起一瓶矿泉水时,因为它并非纯粹的刚体会轻微变形,那么又需要多大力气来拧开瓶盖?足量且高质量的精细化数据,正是具身机器人精准执行任务的"养分"。这部分人类难以言说的数据,成为制约其规模应用的重要痛点。
没有完善的数据闭环喂养,其交互执行极易陷入失控状态,这也是行业内诸多"落地试错案例"的根源。社交媒体上流传的具身机器人"黑历史",本质上都是精细化能力缺失的直接体现:拧瓶盖时因缺乏对不同材质、不同拧紧度的精准力控能力,导致力度失衡压扁水瓶;搭积木时因缺少对物体空间位置与动态碰撞的准确感知能力,不小心碰倒整排积木;工业装配中因缺乏对细分零件的触觉反馈处理能力,出现零件压损或装配错位等问题。
这些看似琐碎的失误,恰恰暴露了产业的核心短板:精细化能力的缺失,让具身机器人难以应对真实场景的复杂性与不确定性。而这种能力短板的核心症结,在于缺乏能够同时满足物理真实性与规模化要求的训练数据。 当行业困于这种核心能力的缺失,任何账面上的订单增长与出货量,都难以转化为实打实的规模应用落地。产业的真正拐点,必将始于在核心能力培育所需的数据供给上取得根本性突破。
真机不是万金油,规模化数据触碰 Scaling law
在明确精细化交互能力是具身机器人落地的核心瓶颈后,需进一步审视支撑该能力的数据体系结构。行业内一直公认的评级标准为“数据金字塔”。
这一金字塔分为三层:底层基座由互联网海量级公开数据及人类操作视频数据构成,中间层为仿真合成数据,塔尖则是价值密度最高的真机遥操数据。
目前真正能让具身机器人具备和物理世界深度交互、执行工作任务的数据,主要依赖于金字塔中层的真机遥操数据和带物理参数的仿真合成数据。
就真机遥操数据来说,其通过具身机器人在真实产业场景中实测获得,涵盖触觉反馈、力控参数、环境交互动态等精细化数据。简而言之,真机遥操数据就是“一对一手把手”教具身机器人如何工作,通过百人规模的遥操采集场,围绕单一本体形态进行数据标注。单项工作任务中成功率较高,其每条运动轨迹都有人类的影子。
真机遥操数据的核心价值在于其对真实物理世界的高保真记录。真实环境中的接触动力学、摩擦力变化、物体形变、力反馈等复杂物理交互,都被完整捕捉在真机遥操数据中。这些来自真实世界的物理细节——尤其是接触、摩擦等非线性动力学参数,能够为机器人提供最直接、最真实的物理世界交互经验,这也是真机遥操数据被视为"金字塔顶端"的根本原因。
但也正是因为其采集方式,导致真机遥操数据存在部分痛点。
目前业内具身机器人形态尚未收敛,就连相同身高的具身机器人臂长也有所不同,行动轨迹也自然有出入,这便导致数据采集难以跨形态部署。当机器人本体迭代或客户需求变化时,此前的数据资产便难以复用,形成了"卖本体"驱动的数据采集模式,而非"数据驱动"的规模化模式。
其次,数据采集往往消耗大量人力物力,鲜少有企业能承担账面压力,大部分数据采集员为兼职,甚至整个场景数据采集为外包公司承接,一定程度上影响数据采集的质量。
可见,诸多客观因素导致真机遥操数据难以触碰Scaling Law,而Scaling Law——即模型性能随数据量和算力的增加而可预测地提升,才是具身机器人数据侧的首要解法。
Generalist AI的突破,恰恰验证了规模化数据的可能性。Generalist发布的GEN-0具身基础模型,用27万小时人类操作视频数据首次在机器人领域验证了Scaling Law的存在。更关键的是,Generalist采用了UMI(通用操作接口)方案,数据采集设备与机器人本体解耦,可在全球数千个家庭、仓库、工作场所灵活部署,实现了真正的规模化数据采集。
图片来源:Generalist
在数据规模化的另一条路径上,仿真合成数据同样展现出触碰Scaling Law的潜力,且在经济效率上更具优势。同一套仿真场景资产,可以适配不同形态的机器人进行训练,无需针对每个本体重新构建环境。
更关键的是,仿真数据可在虚拟环境中快速生成海量、多样化的训练数据,在成本控制和部署灵活性上具有独特优势。对于预训练数据集几乎为零的具身智能领域而言——并没有上百万台机器人在工厂、车间和家庭中持续采集数据——这个巨大的数据缺口,恰恰需要仿真合成数据这种可快速扩展、成本可控的方案来填补。
一方面,仿真合成数据能解决数据缺失和难以规模化的痛点, 另一方面通过仿真方式能极大降低数据资产沉淀的成本。二者相加,便能打开仿真合成数据助力具身机器人应用海量数据的大门。
更为重要的是,仿真合成数据精准覆盖精细化数据需求并具备泛化能力。仿真环境可精准模拟触觉反馈、力控阈值等真机实测中难以捕捉的精细化参数,同时通过调整场景变量(如物体材质、环境光照、任务流程),生成具备场景泛化性的数据,助力机器人算法适配更多元的真实场景。
仿真合成数据的商业价值,已通过实际案例得到印证。银河通用坚持以仿真技术为核心研发路径,成功推出“银河太空舱”并在全国实现大面积落地,深度和每一位客人交互,用看得见摸得着的产业成果,证明了仿真路线在商业转化上的巨大潜力。这种落地并非偶然,而是仿真数据优势与产业需求深度匹配的必然结果 。通过仿真积累的海量数据,支撑机器人在真实场景中实现更稳定、精准的执行,为商业规模化铺平道路。
从产业发展规律来看,无论是Generalist用27万小时人类操作视频数据验证的Scaling Law,还是仿真合成数据展现的规模化潜力,都指向同一个核心命题:如何高效获取海量、高质量的训练数据。
产业更应秉持客观审慎的态度,回归“需求导向”的核心逻辑,实现数据规模化是当下的关键。那些仍在围绕单一本体建造遥操采集场的企业,本质上是在用数据采集包装"卖本体"的生意,其数据难以在Scaling Law的竞争中占据优势。
仿真亦是通途:物理真实与规模效率的协同进化
Generalist利用人类操作视频数据验证机器人领域的Scaling Law,其背后的数据逻辑与仿真合成数据不谋而合——两者均致力于突破数据采集的物理限制,实现高复用性与规模化效率。只不过,Generalist通过UMI方案在真实世界中实现跨本体数据采集,而仿真合成数据则选择在虚拟环境中构建数据流水线。
值得关注的是,仿真合成数据在规模化潜力上正展现出不亚于人类操作视频数据的势头。"AI教母"李飞飞在其3天前发表的长文《从语言到世界:空间智能是AI的下一个前沿》中指出,机器人一直是具身智能领域的梦想,而世界模型(World Models)将是实现这一梦想的关键。她特别提到:"我不会低估高质量合成数据(Synthetic Data)的力量...它们在训练过程的关键步骤中补充了互联网规模的数据。"
早在前不久,李飞飞与英伟达AI科学家Jim Fan在一场NVIDIA Omniverse直播对话中,就仿真与世界模型进行深度对谈。无独有偶,下一期的Omniverse直播中,Omniverse & Physical AI产品营销高级总监Madison Huang与光轮智能创始人兼CEO谢晨博士,同样也围绕仿真合成数据如何缩小Sim-to-Real鸿沟展开了深度对话,进一步凸显仿真路径在主流技术路线中的地位正在强化。
图片来源:直播截图
谢晨在直播中指出:“当前已进入数据发展的关键阶段。借助仿真技术与仿真资产,机器人领域可实现多项突破。”这一判断的背后,是光轮智能在仿真数据体系上的系统化布局——从高物理真实性的仿真资产,到标准化、工业化的数据生产流程,最终形成可复用的工具链与开放生态。
在技术实现层面,光轮智能展示了其与NVIDIA合作开发的电缆仿真解决方案,能够处理“可变形体+刚体”双重物理属性,为机器人操作线缆、软管等复杂任务提供高保真数据。Madison Huang指出,“电缆操作是机器人领域的‘圣杯’问题”,在NVIDIA的生产环境中,单台NVL72机架就需布设2英里长的铜缆,这类任务对机器人的力控与触觉反馈提出极高要求。
图片来源:直播截图
为保障仿真数据的有效性,光轮建立了一套完整的基准测试流程:从物理属性校准、远程操控验证,到强化学习压力测试,并对比仿真与现实世界中的物理参数曲线,确保数据趋势一致。谢晨强调,仿真的目标不是追求与现实完全一致的“数字孪生”,而是生成具有多样性和代表性的“数字同类体”(digital cousins),以覆盖真实场景中的数据分布。
在规模化方面,光轮通过标准化流程将现有数字资产快速转化为仿真就绪资产。例如,一个冰箱模型的转化时间可缩短至约20分钟。同时,其对仿真资产进行深度优化,支持单GPU并行运行成百上千个环境,为强化学习提供大规模、低成本的训练条件。
在架构设计上,光轮智能以仿真引擎为底层基础,构建可复用的工具链层——包括泛化学习、强化学习等模块,均已实现产品化。在此基础上,适配层根据不同客户的传感器与标注需求进行定制,从而快速响应多场景需求。
为拓展数据生成能力边界,光轮与NVIDIA联合推动Isaac Lab Arena开源框架的开发,用于基准测试、数据收集与大规模强化学习,并集成Cosmos等世界模型增强合成数据的多样性与复杂性。这套“仿真-资产-工具链-生态”的闭环,为其规模化服务客户奠定了基础。
目前,光轮智能的客户除了英伟达,还覆盖DeepMind、斯坦福、Genesis AI、Figure、1X、银河、智元、阿里、字节等企业与机构,在产业中逐步建立起技术信誉。Madison Huang在直播中评价称,与这些顶尖团队的合作,“本身就证明了光轮在仿真资产与合成数据普及方面的前瞻性”。
李飞飞在空间智能宣言中强调,空间智能需处理“语义、几何、动态和物理”之间的复杂协调,其难度远超语言模型的一维序列建模。仿真合成数据正是应对这一挑战的关键路径——它不仅仅提供数据,更在构建一个可控、可扩展的物理学习环境。
光轮智能的实践表明,仿真数据系统逐渐成为连接虚拟与现实、支持机器人从“感知”走向“操作”的基础设施。据悉,光轮智能已实现破亿营收,这也从商业层面验证了仿真合成数据的规模化价值正在被市场认可。
结语
Generalist以27万小时人类操作视频数据验证了机器人领域的Scaling Law,其UMI方案更指明了一条数据规模化的现实路径。当多数企业仍困于为单一本体建造遥操工厂时,像Generalist这样依托人类操作视频融资1.4亿美元,或如光轮智能凭借仿真数据实现营收破亿,都已证明:规模化的大门,早已向能够突破数据瓶颈的玩家敞开。
这场竞赛的关键分水岭,已不再是数据方案的路线之争,而在于是否回归到数据采集的“第一性原理”:追求可复用、可扩展、可演进的规模化数据流。那些执着于单一本体、高成本标注的传统遥操模式,不仅难以支撑Scaling Law所需的数据洪流,更在根本上背离了智能泛化的基本逻辑。
Generalist的突破重写了具身智能时代的数据法则:打破本体依赖,建立可复用、可扩展的数据飞轮,才是迎接Scaling Law时代的关键。
本文来自微信公众号“具身研习社”,作者:王梦灿,编辑:狄鑫彤,36氪经授权发布。