不做遥操作、不采真机数据,这家公司的机器人靠学习“人类第一视角数据”干活|AI Founder请回答
在具身智能与人形机器人领域,高质量数据的匮乏一直是阻碍技术落地的核心瓶颈。目前行业主流的数据收集方法主要包括四种:依靠人力操作的遥操作(以智元机器人为代表)、依赖虚拟环境的仿真数据(以银河通用机器人为代表)、采集人类视频(以它石智能为代表)以及直接的真机数据。这些方法虽然有效,但往往面临成本高昂、效率低下或“形态鸿沟”难以弥合等挑战。EgoHumanoid 针对这些痛点,提出了一条差异化的技术路径,旨在打破具身智能的数据困局。
“借力人类数据”:EgoHumanoid 的核心思路
EgoHumanoid 的核心战略被概括为“借力人类数据,弥合形态鸿沟”。这种方法避开了直接采集机器人数据的重资产模式,转而利用分布更广、成本更低的人类数据。
具体操作逻辑分为两个步骤:首先,采集海量的人类第一视角(First-person Perspective)演示视频。这些数据通常来自于佩戴摄像头的普通人类执行日常任务,具有极高的多样性和真实感。同时,为了构建基准,团队辅以少量的机器人本体数据。

接下来的关键在于“对齐”。EgoHumanoid 通过复杂的算法实现“视角”与“动作”的双重对齐。这意味着系统不仅要理解人类在第一视角下看到了什么,还要精确地将人类的手部动作、肢体语言转化为适用于机器人硬件架构的动作指令。通过这种转化,机器人能够习得人类的技能与决策逻辑,实现了将人类经验“迁移”到机器人实体上的跨越。
大厂激战与人才争夺:AI 基础设施的军备竞赛
机器人领域的数据创新并非孤立发生,其背后是整个 AI 行业在基础设施、人才和计算资源上的激烈争夺。当前,字节跳动、阿里、腾讯等巨头正在重塑 AI 研发的组织形态,试图以此加速突破。
- 字节跳动的“创业化”改造:字节的 AI 部门(Seed)正试图通过营造相对独立的小环境,以创业公司的模式运行,旨在摆脱庞大组织的惯性。为了实现这一目标,字节引进了吴永辉等资深管理者,并显著提升了 AI-Native 人才的比例,降低传统搜推广背景人员的占比。
- 阿里的“整合与反击”:与字节不同,阿里的通义实验室在 AI 浪潮前便已存在(由原达摩院多个实验室合并)。虽然初期在激励机制上不够灵活,但在 2024 年底,通义实验室对模型团队进行了普遍的薪资与职级上调,以回应市场行情,稳固人才基本盘。周靖人作为核心领导者,主导了 Qwen 系列模型的领先地位,并晋升为合伙人。
- 垂直整合的组织优势:参考 Sora App 的成功案例,业界意识到“端到端”的组织架构至关重要。如果产品需求能够高效地梯度回传给模型团队,就能更巧妙地利用模型特性开发新功能。这对于具身智能领域的数据收集与模型训练同样具有启示意义。
AI 硬件入口之争:眼镜与卡片的百亿机会
EgoHumanoid 采集人类第一视角数据的基础,在于人类感官中枢与硬件设备的结合,这正是当下 AI 硬件争夺的另一个焦点——寻找下一代大规模硬件入口。
- AI 眼镜的 Always-on 潜力:眼镜作为戴在脸上的传感器平台,最接近人眼视角,能够采集高质量的视觉与声音数据。虽然目前产品形态尚未收敛(有的带拍摄,有的带显示),但 Ray-Ban Meta 的成功(销量超 300 万台)已经证明了其可行性。Apple 等厂商也计划入局,这表明未来的人类视角数据采集将更加规模化、常态化。
- 从功能切入的 AI 硬件:除了眼镜,还有一批利用大模型能力从特定场景切入的硬件。例如 Plaud(一款 AI 录音卡片),其创始人虽非工程背景,但组建了经验丰富的硬件团队,在立项早于 ChatGPT 发布的情况下,抓住了 AI 潮流,累计销量已超 100 万台。这显示了 AI 硬件形态的多样化——手机、汽车、甚至简单的功能硬件,都可能成为 AI 能力的载体。
- 数据价值的长尾效应:正如行业观察指出,真机数据的价值不会轻易降低。虽然合成数据和互联网数据的成本会随着技术进步而下降,但结合了硬件采集的真实世界数据(即人类行为数据),其长期价值在 AI 理解物理世界的过程中不可或缺。
结语:从数据到意义的跨越
EgoHumanoid 的技术路径展示了一种高效利用存量资源(人类行为)解决前沿科技问题的思路。这种“借力打力”的策略,与大厂在算力和人才上的军备竞赛、以及硬件厂商对数据入口的抢占交织在一起,共同推动了 AI 与机器人技术的演进。
正如北大胡泳老师曾提出的思考:在 AI 能够通过学习人类行为而“干活”的未来,人类面临的挑战或许不再是工作本身,而是如何重新定义人的意义。EgoHumanoid 的机器人虽然在学习“人类第一视角数据”干活,但这一过程本身也折射出我们正在将人类特有的智慧与经验,编码进硅基生命的历史进程。