具身智能，卖数据的先赚钱

7 天前

AI资讯

18 阅读

人工智能具身智能融资数据

百万小时数据缺口催生“数据饥渴”，卖铲子生意先沸腾

具身智能的热潮在2026年彻底引爆。据统计，开年至今行业总融资额已超300亿元，估值超百亿的公司超过20家。然而，资本狂潮下最残酷的真相浮出水面：训练通用具身大模型所需的千万小时级高质量物理交互数据，全球存量仅约50万小时，缺口超99%。行业共识是，数据锁住了具身智能进化的咽喉——大语言模型可以吞噬互联网海量语料，机器人却需要在真实物理世界中完成“拿、放、走、抓、避障”等三维动作数据，数据采集的复杂度和成本呈指数级上升。

AI圈的铁律是“卖铲子的人最先赚钱”。2026年，这场关于数据的生意已悄然沸腾。光轮智能2026年一季度拿下5.5亿元订单，超过2025年全年总额；国际主要具身智能团队超80%的仿真资产与合成数据来自该公司。觅蜂科技董事长姚卯青直言，数据已像算力一样成为基础生产要素，需求方处于“你有多少我就买多少，什么时候有马上要”的状态。数据供给的回报周期，被认为比本体机器人或行业解决方案来得更快。

数据金字塔：真机、仿真、无本体三大赛道的卡位战

行业普遍形成“数据金字塔”共识：顶层是真机数据（精度最高、成本最贵），中层是仿真合成数据（低成本易规模化），底层是互联网视频/人类行为数据（泛化性强、精度低）。三类数据缺一不可，各厂商正围绕金字塔全面布局。

具身智能，卖数据的先赚钱

真机数据：被视为“黄金数据”，通过遥操作（如VR设备）由专业人员操控真实机器人完成精细动作。截至2026年4月，全国规划或建成的具身智能数采中心已达64座。智元机器人（旗下觅蜂科技）、鹿明机器人、帕西尼等头部企业大规模建设数采工厂；京东提出两年内采集100万小时机器人本体数据+1000万小时人类场景视频数据。但真机数据成本高，国内市场价格约500-1000元/小时，规模化受限。
仿真合成数据：当前规模化生产的主流路线。光轮智能自研物理仿真引擎，构建“世界—行为—评测”三层闭环，承担规模化预训练、评测和强化学习任务。仿真数据可弥补真机数据不足，但面临“Sim-to-Real”迁移难题。
无本体数据：以UMI（通用操作界面）和Ego-centric数据为代表，通过佩戴可穿戴设备采集人类操作轨迹，效率是真机数据的2-3倍，成本最终预计收敛至真机数据的三分之一到二分之一。鹿明机器人发布FastUMI“全家桶”，计划建成超100万小时UMI数据产能；觅蜂科技年内千万小时级产能中60%-70%来自无本体采集；京东发动60万人众包采集，推出自研JoyEgoCam采集终端。

好数据的四个维度：物理真实、可规模化、多样性、端到端可用

在数据需求爆发的同时，行业对“好数据”的标准愈发清晰。客户采购时最关注的已不是“量大不大”或“单价高不高”，而是数据能否真正转化为模型能力提升。

物理真实：具身数据需精准还原接触、受力、状态变化等物理信息，缺乏真实性的数据会导致机器人在真实世界抓取落空、操作失衡。
可规模化：能支撑预训练和持续迭代，不止能做几个Demo。
多样性足够高：模型需要看到世界的全貌，包括失败、有瑕疵的轨迹。光轮智能有客户以1.5倍价格收购“不那么成功”的案例数据。在预训练阶段，多样性比正确性更重要。
端到端可用：当前许多视频数据仅有简单动作标签，缺少环境语义和任务过程描述，远不能满足高质量训练需求。

此外，行业还强调“行为对齐”——数据应高保真地捕捉人类真实行为模式，包括那些无意识的隐蔽行为（如拿水杯前先判断是否干净）。肌电、脑电等与人类意图关联的数据模态也在探索中。

标准缺失与“非共识”：数据生意的隐忧与进化方向

尽管数据市场火热，但行业仍存在大量“非共识”。智源研究院姚国才指出，行业“太着急”，对于实现AGI需要多少数据、哪些模态、如何评价质量等问题尚未想清楚。蚂蚁灵波科技总结三种“无法对齐”：学习对象与数据不对齐（遥操作动作质量低于人类真实能力）、任务分布与数据不对齐（采集动作单一）、机器人本体间不对齐（不同机器人自由度、传感器布局各异）。

数据价值的衡量也缺乏标准。原力灵机联合创始人范浩强建议以Benchmark为牵引，形成“测评→数据→模型”闭环。国内已加快标准建设：2025年上海发布人形机器人数据集标准，2026年工信部出台全产业链标准顶层设计。光轮智能通过“仿真生成、评测验证、少量真实对齐”闭环，将部分项目开发周期从3-6个月压缩至约2周。

未来，两类数据公司可能持续增长：一是成为行业标准平台，拥有仿真、数据处理和评测工具；二是在机器人进入真实场景后，具备跨厂商数据融合与提纯能力的公司，将长期提供不可替代的数据迭代服务。

具身智能，卖数据的先赚钱

百万小时数据缺口催生“数据饥渴”，卖铲子生意先沸腾

数据金字塔：真机、仿真、无本体三大赛道的卡位战

好数据的四个维度：物理真实、可规模化、多样性、端到端可用

标准缺失与“非共识”：数据生意的隐忧与进化方向

链接失效反馈