不做遥操作、不采真机数据，这家公司的机器人靠学习“人类第一视角数据”干活｜AI Founder请回答

3 个月前

AI资讯

38 阅读

具身智能机器人学习人类数据形态鸿沟

在具身智能与人形机器人领域，高质量数据的匮乏一直是阻碍技术落地的核心瓶颈。目前行业主流的数据收集方法主要包括四种：依靠人力操作的遥操作（以智元机器人为代表）、依赖虚拟环境的仿真数据（以银河通用机器人为代表）、采集人类视频（以它石智能为代表）以及直接的真机数据。这些方法虽然有效，但往往面临成本高昂、效率低下或“形态鸿沟”难以弥合等挑战。EgoHumanoid 针对这些痛点，提出了一条差异化的技术路径，旨在打破具身智能的数据困局。

“借力人类数据”：EgoHumanoid 的核心思路

EgoHumanoid 的核心战略被概括为“借力人类数据，弥合形态鸿沟”。这种方法避开了直接采集机器人数据的重资产模式，转而利用分布更广、成本更低的人类数据。

具体操作逻辑分为两个步骤：首先，采集海量的人类第一视角（First-person Perspective）演示视频。这些数据通常来自于佩戴摄像头的普通人类执行日常任务，具有极高的多样性和真实感。同时，为了构建基准，团队辅以少量的机器人本体数据。

不做遥操作、不采真机数据，这家公司的机器人靠学习“人类第一视角数据”干活｜AI Founder请回答

接下来的关键在于“对齐”。EgoHumanoid 通过复杂的算法实现“视角”与“动作”的双重对齐。这意味着系统不仅要理解人类在第一视角下看到了什么，还要精确地将人类的手部动作、肢体语言转化为适用于机器人硬件架构的动作指令。通过这种转化，机器人能够习得人类的技能与决策逻辑，实现了将人类经验“迁移”到机器人实体上的跨越。

大厂激战与人才争夺：AI 基础设施的军备竞赛

机器人领域的数据创新并非孤立发生，其背后是整个 AI 行业在基础设施、人才和计算资源上的激烈争夺。当前，字节跳动、阿里、腾讯等巨头正在重塑 AI 研发的组织形态，试图以此加速突破。

字节跳动的“创业化”改造：字节的 AI 部门（Seed）正试图通过营造相对独立的小环境，以创业公司的模式运行，旨在摆脱庞大组织的惯性。为了实现这一目标，字节引进了吴永辉等资深管理者，并显著提升了 AI-Native 人才的比例，降低传统搜推广背景人员的占比。
阿里的“整合与反击”：与字节不同，阿里的通义实验室在 AI 浪潮前便已存在（由原达摩院多个实验室合并）。虽然初期在激励机制上不够灵活，但在 2024 年底，通义实验室对模型团队进行了普遍的薪资与职级上调，以回应市场行情，稳固人才基本盘。周靖人作为核心领导者，主导了 Qwen 系列模型的领先地位，并晋升为合伙人。
垂直整合的组织优势：参考 Sora App 的成功案例，业界意识到“端到端”的组织架构至关重要。如果产品需求能够高效地梯度回传给模型团队，就能更巧妙地利用模型特性开发新功能。这对于具身智能领域的数据收集与模型训练同样具有启示意义。

AI 硬件入口之争：眼镜与卡片的百亿机会

EgoHumanoid 采集人类第一视角数据的基础，在于人类感官中枢与硬件设备的结合，这正是当下 AI 硬件争夺的另一个焦点——寻找下一代大规模硬件入口。

AI 眼镜的 Always-on 潜力：眼镜作为戴在脸上的传感器平台，最接近人眼视角，能够采集高质量的视觉与声音数据。虽然目前产品形态尚未收敛（有的带拍摄，有的带显示），但 Ray-Ban Meta 的成功（销量超 300 万台）已经证明了其可行性。Apple 等厂商也计划入局，这表明未来的人类视角数据采集将更加规模化、常态化。
从功能切入的 AI 硬件：除了眼镜，还有一批利用大模型能力从特定场景切入的硬件。例如 Plaud（一款 AI 录音卡片），其创始人虽非工程背景，但组建了经验丰富的硬件团队，在立项早于 ChatGPT 发布的情况下，抓住了 AI 潮流，累计销量已超 100 万台。这显示了 AI 硬件形态的多样化——手机、汽车、甚至简单的功能硬件，都可能成为 AI 能力的载体。
数据价值的长尾效应：正如行业观察指出，真机数据的价值不会轻易降低。虽然合成数据和互联网数据的成本会随着技术进步而下降，但结合了硬件采集的真实世界数据（即人类行为数据），其长期价值在 AI 理解物理世界的过程中不可或缺。

结语：从数据到意义的跨越

EgoHumanoid 的技术路径展示了一种高效利用存量资源（人类行为）解决前沿科技问题的思路。这种“借力打力”的策略，与大厂在算力和人才上的军备竞赛、以及硬件厂商对数据入口的抢占交织在一起，共同推动了 AI 与机器人技术的演进。

正如北大胡泳老师曾提出的思考：在 AI 能够通过学习人类行为而“干活”的未来，人类面临的挑战或许不再是工作本身，而是如何重新定义人的意义。EgoHumanoid 的机器人虽然在学习“人类第一视角数据”干活，但这一过程本身也折射出我们正在将人类特有的智慧与经验，编码进硅基生命的历史进程。

不做遥操作、不采真机数据，这家公司的机器人靠学习“人类第一视角数据”干活｜AI Founder请回答

“借力人类数据”：EgoHumanoid 的核心思路

大厂激战与人才争夺：AI 基础设施的军备竞赛

AI 硬件入口之争：眼镜与卡片的百亿机会

结语：从数据到意义的跨越

链接失效反馈