Generalist最新长文定调:具身原生才是正道,原力灵机已交卷
行业背景:具身智能进入新阶段
2026年伊始,具身智能(Embodied Intelligence)领域迎来重大突破。全球范围内,AI公司和研究机构开始重新思考实现通用人工智能(AGI)的路径。在这一波技术浪潮中,Generalist AI推出的GEN-1模型成为焦点,其技术博客不仅展示了模型性能,还明确提出了“具身原生”理念,引发行业广泛讨论。
与此同时,中国初创企业原力灵机也迅速跟进,以“具身原生”为核心战略,举办了技术开放日,发布其核心成果——DM0模型。这标志着中国企业在具身智能领域的深度参与,与国际头部机构展开正面竞争。
GEN-1模型的发布与核心理念
Generalist AI创始人Pete Florence在博客中强调,GEN-1不是传统意义上的视觉语言动作模型(VLA),而是“从零开始训练的具身原生模型”。该模型在多个任务中的成功率超过99%,执行速度是前代模型的3倍,并具备“故障恢复”(Failure Recovery)能力。
博客中还引用了John Schulman关于“雇佣兵”与“传教士”研究范式的比喻:
- 雇佣兵型:追逐短期热点,灵活但缺乏长期战略。
- 传教士型:坚定目标驱动,致力于实现物理AGI,即使路径艰难。
他们认为,当前行业中的VLM(视觉语言模型)、VLA、甚至世界模型,本质上只是在数据匮乏时期的“拐杖”。真正的未来在于从头构建具备“理解世界”、“操作世界”、“预测世界”能力的具身原生模型。
DM0:原力灵机的“具身原生”答卷
中国公司原力灵机在两个月前便通过技术开放日,展示了其与GEN-1理念高度一致的技术路线——DM0,即首个具身原生模型。DM0在训练方法上展现出三大核心原生能力:
- 理解世界:结合视觉与语言输入,准确识别任务目标。
- 操作世界:直接输出机器人动作指令,实现真实物理交互。
- 预测世界:通过动态环境建模,预测动作后果并进行调整。
DM0在数据使用上也体现出独到之处:
- 使用真实传感数据,涵盖视觉、触觉、力觉等多模态信息。
- 仿真与真机结合:仿真数据用于大范围环境探索,真机数据用于精细操作训练。
这种策略使得DM0在面对不同形状、材质、大小的物体时,依然具备高度泛化能力,展现出“小模型,强泛化”的反直觉特性。
技术挑战与资源限制
实现“具身原生”并非易事。当前行业面临的主要挑战包括:
- 数据不足:现有公开的具身交互数据量远远无法支撑大模型训练。
- 仿真局限:在液体、柔性物体等复杂场景中,仿真环境无法准确建模。
- 硬件依赖:不同机器人硬件结构差异大,模型需具备跨平台适应能力。
资源有限的情况下,企业和研究机构不得不在模型规模、数据质量、训练目标之间做出取舍。正如F1赛车通过规则限制催生多样化技术策略一样,这些限制也在推动不同哲学导向的AGI路线图形成。
行业影响与未来展望
2026年,被广泛称为“具身原生元年”。随着GEN-1与DM0的发布,行业开始重新评估AI与物理世界的交互方式。未来发展方向可能包括:
- 从“数据驱动”转向“能力驱动”:不再依赖现有数据集,而是从零构建真实世界的感知与行动能力。
- 模型架构重构:将“理解、操作、预测”三大能力统一训练,而非分阶段拼接。
- 跨国技术博弈升级:中美在具身智能领域的竞争将更加激烈,中国公司有望在全球AGI竞赛中占据一席之地。
可以预见,具身原生将成为通往物理AGI的关键路径,而GEN-1与DM0的发布,无疑为这场全球AI进化之战揭开了序幕。