Generalist爆火背后:具身智能真正的竞争,已不在模型
具身智能的演进:从GEN-0到GEN-1
Generalist AI作为一家成立于2024年的AI机器人公司,总部位于美国加州圣马特奥。公司创始团队来自谷歌DeepMind和波士顿动力等顶尖机构,具备深厚的技术背景。2025年11月,Generalist发布首款具身智能模型GEN-0,首次在机器人领域验证了“Scaling Law”(缩放定律)的存在,被视为机器人学习的“ChatGPT时刻”。
2026年4月,公司推出了新一代模型GEN-1,其性能实现了显著提升:
- 平均任务成功率从64%提升至99%;
- 完成箱体组装时间从34秒降至12.1秒;
- 手机入壳封装任务速度提升2.8倍;
- 微调所需真机数据从数小时缩减至仅需1小时。
GEN-1的成功不仅体现在技术指标上,更在于其训练方法的革新。
数据路径革新:低成本非本体数据
GEN-1模型的训练方式与传统方法截然不同。此前许多高成功率的机器人模型依赖于昂贵且难以扩展的真机遥操作数据,即通过人工远程操控机器人进行大量训练,成本高、效率低。
而Generalist采用了一种更经济、更可持续的路径:
- 基于50万小时人类操作视频数据进行预训练;
- 数据通过低成本可穿戴设备采集,无需依赖机器人本体;
- 被称为“非本体数据”(non-embodied data)的方法显著降低了数据获取门槛;
- 在接触真实机器人任务前,模型已具备对物理世界的初步理解。
Andy Zeng指出:“如果你拥有足够高质量且多样化的真实世界数据,那么仿真数据和遥操作数据的价值就会降低。”这种低成本数据路径使得GEN-1在适应新任务时,仅需约1小时的真机数据即可完成微调,大幅降低了部署成本和时间。
技术突破:可靠性、速度与即兴应变能力的结合
GEN-1模型在机器人操作领域实现了多项关键能力的融合:

核心能力表现
- 可靠性:部分任务成功率高达99%以上;
- 运行速度:比此前最先进的模型快3倍;
- 即兴应变能力:面对突发状况,能自主调整策略,恢复任务执行。
例如,在一个长时序的汽车套件组装任务中,当垫圈被碰得太远时,GEN-1能够:
- 自主决定将垫圈放回原位再重新抓取;
- 或使用另一只手协同完成双手抓取。
这种“智能即兴发挥”标志着机器人开始具备一定的泛化能力,能够处理训练中未明确覆盖的异常状况,而不仅仅依赖预设逻辑。
模型背后的真正竞争逻辑
虽然GEN-1展现出令人瞩目的性能提升,但业内更关注的是其背后的数据策略:
- Scaling Law的验证:在具身智能领域,随着数据量、算力和参数的增加,性能可以预测性提升;
- 商业化可行性:GEN-1无需复杂系统设计,即可在不同任务和环境中稳定执行,为规模化部署奠定基础;
- 数据护城河:Generalist强调数据才是未来具身智能的核心壁垒,而非模型或算力。
正如Andy Zeng所说:“模型一直带来惊喜。”GEN-1所展示的,不只是技术能力,更是对数据驱动路径的商业验证。
然而,这条路并不平坦,仍存在以下挑战:
- 数据采集成本依然高企;
- 机器人硬件稳定性与耐久性仍是瓶颈;
- 实际部署场景复杂多变,模型需应对更多非结构化变量。
中美竞争格局:技术先发 vs 产能与成本优势
Generalist在技术叙事上领先一步,但全球范围内的竞争格局仍未明朗:
- 美国公司在算法创新与数据积累方面占据先机;
- 中国公司如智元机器人(Agibot)、宇树科技、傅利叶智能则在硬件量产与成本控制上快速追赶。
例如,智元机器人在2026年3月实现了第10000台人形机器人的下线,产能呈现指数级增长。
此外,中国在深圳举办的首届具身智能开发者大会上,有人指出技术从探索到验证的周期已缩短至仅3天,这种快速迭代能力可能在未来形成强大的场景落地优势。
未来展望:从实验室到真实世界的鸿沟
GEN-1的发布标志着具身智能进入了一个新阶段,但其在真实世界中的表现仍需时间验证。例如:
- 演示场景相对结构化,真实工厂存在更多不确定性;
- 传感器漂移、机械磨损、环境噪音等问题尚未充分暴露;
- 家庭场景变量多、容错率低,短期内商用风险仍高。
尽管如此,GEN-1所展示的“数据规模驱动性能”的逻辑,已为具身智能的发展指明方向。未来的竞争,将围绕以下几个关键点展开:
三大核心竞争要素
- 数据积累的深度与广度:谁掌握更多垂直场景的真实物理交互数据,谁就占据先机;
- 模型的泛化能力:从一个任务迁移到相邻任务的能力,决定其适应性;
- 硬件-软件协同优化:如何在保持性能的同时,降低整体部署与维护成本。
与2020年GPT-3刚发布时的情形相似,GEN-1或许不是终局,但它证明了这条路是可行的。接下来的问题不是“能不能做到”,而是“谁先做到”、“谁的数据最多”、“谁的场景最深”。