具身智能,卖数据的先赚钱
百万小时数据缺口催生“数据饥渴”,卖铲子生意先沸腾
具身智能的热潮在2026年彻底引爆。据统计,开年至今行业总融资额已超300亿元,估值超百亿的公司超过20家。然而,资本狂潮下最残酷的真相浮出水面:训练通用具身大模型所需的千万小时级高质量物理交互数据,全球存量仅约50万小时,缺口超99%。行业共识是,数据锁住了具身智能进化的咽喉——大语言模型可以吞噬互联网海量语料,机器人却需要在真实物理世界中完成“拿、放、走、抓、避障”等三维动作数据,数据采集的复杂度和成本呈指数级上升。
AI圈的铁律是“卖铲子的人最先赚钱”。2026年,这场关于数据的生意已悄然沸腾。光轮智能2026年一季度拿下5.5亿元订单,超过2025年全年总额;国际主要具身智能团队超80%的仿真资产与合成数据来自该公司。觅蜂科技董事长姚卯青直言,数据已像算力一样成为基础生产要素,需求方处于“你有多少我就买多少,什么时候有马上要”的状态。数据供给的回报周期,被认为比本体机器人或行业解决方案来得更快。
数据金字塔:真机、仿真、无本体三大赛道的卡位战
行业普遍形成“数据金字塔”共识:顶层是真机数据(精度最高、成本最贵),中层是仿真合成数据(低成本易规模化),底层是互联网视频/人类行为数据(泛化性强、精度低)。三类数据缺一不可,各厂商正围绕金字塔全面布局。

-
真机数据:被视为“黄金数据”,通过遥操作(如VR设备)由专业人员操控真实机器人完成精细动作。截至2026年4月,全国规划或建成的具身智能数采中心已达64座。智元机器人(旗下觅蜂科技)、鹿明机器人、帕西尼等头部企业大规模建设数采工厂;京东提出两年内采集100万小时机器人本体数据+1000万小时人类场景视频数据。但真机数据成本高,国内市场价格约500-1000元/小时,规模化受限。
-
仿真合成数据:当前规模化生产的主流路线。光轮智能自研物理仿真引擎,构建“世界—行为—评测”三层闭环,承担规模化预训练、评测和强化学习任务。仿真数据可弥补真机数据不足,但面临“Sim-to-Real”迁移难题。
-
无本体数据:以UMI(通用操作界面)和Ego-centric数据为代表,通过佩戴可穿戴设备采集人类操作轨迹,效率是真机数据的2-3倍,成本最终预计收敛至真机数据的三分之一到二分之一。鹿明机器人发布FastUMI“全家桶”,计划建成超100万小时UMI数据产能;觅蜂科技年内千万小时级产能中60%-70%来自无本体采集;京东发动60万人众包采集,推出自研JoyEgoCam采集终端。
好数据的四个维度:物理真实、可规模化、多样性、端到端可用
在数据需求爆发的同时,行业对“好数据”的标准愈发清晰。客户采购时最关注的已不是“量大不大”或“单价高不高”,而是数据能否真正转化为模型能力提升。
- 物理真实:具身数据需精准还原接触、受力、状态变化等物理信息,缺乏真实性的数据会导致机器人在真实世界抓取落空、操作失衡。
- 可规模化:能支撑预训练和持续迭代,不止能做几个Demo。
- 多样性足够高:模型需要看到世界的全貌,包括失败、有瑕疵的轨迹。光轮智能有客户以1.5倍价格收购“不那么成功”的案例数据。在预训练阶段,多样性比正确性更重要。
- 端到端可用:当前许多视频数据仅有简单动作标签,缺少环境语义和任务过程描述,远不能满足高质量训练需求。
此外,行业还强调“行为对齐”——数据应高保真地捕捉人类真实行为模式,包括那些无意识的隐蔽行为(如拿水杯前先判断是否干净)。肌电、脑电等与人类意图关联的数据模态也在探索中。
标准缺失与“非共识”:数据生意的隐忧与进化方向
尽管数据市场火热,但行业仍存在大量“非共识”。智源研究院姚国才指出,行业“太着急”,对于实现AGI需要多少数据、哪些模态、如何评价质量等问题尚未想清楚。蚂蚁灵波科技总结三种“无法对齐”:学习对象与数据不对齐(遥操作动作质量低于人类真实能力)、任务分布与数据不对齐(采集动作单一)、机器人本体间不对齐(不同机器人自由度、传感器布局各异)。
数据价值的衡量也缺乏标准。原力灵机联合创始人范浩强建议以Benchmark为牵引,形成“测评→数据→模型”闭环。国内已加快标准建设:2025年上海发布人形机器人数据集标准,2026年工信部出台全产业链标准顶层设计。光轮智能通过“仿真生成、评测验证、少量真实对齐”闭环,将部分项目开发周期从3-6个月压缩至约2周。
未来,两类数据公司可能持续增长:一是成为行业标准平台,拥有仿真、数据处理和评测工具;二是在机器人进入真实场景后,具备跨厂商数据融合与提纯能力的公司,将长期提供不可替代的数据迭代服务。