π0.7发布,VLA押出了机器人的GPT-3时刻
π0.7发布的技术意义
- ViLLA架构:π0.7基于ViLLA(Vision-Language-Latent-Action)架构,融合视觉、语言和隐式动作标记,实现跨模态感知与决策。
- 隐式动作预测:通过Latent Action Tokens,解决了视觉与语言输入到机器人动作执行之间的语义转换难题。
- 突破VLA瓶颈:相比传统VLA模型,π0.7首次展现出从训练数据中“涌现”的新能力,而非单纯任务扩展。
核心能力提升
- 长程任务规划:引入动态进化学习机制,提高任务执行的连贯性与环境适应性。
- 小样本迁移学习:利用人类视频数据,实现快速跨场景、跨机型技能迁移。
- 多专家协同:整合VLM模块与MoE系统,包括隐式规划器和动作专家,形成完整的“感知-决策-执行”闭环。

应用表现数据
在五项复杂任务测试中,π0.7的平均任务成功率从46%提升至78%,性能提升显著:
- 倒水:提升12%
- 桌面清理:提升10%
- 饮料补给:提升15%
- 其他两项任务:分别提升约8%和7%
与VLM和VLA模型的对比
| 模型类型 | 特点 | 泛化能力 | 动作控制 | 是否具备“涌现”能力 |
|---|---|---|---|---|
| VLM(视觉语言模型) | 依赖互联网图文数据 | 强 | 无法直接控制动作 | 否 |
| VLA(视觉语言动作模型) | 将VLM输出转化为动作指令 | 弱 | 精度高但泛化受限 | 否 |
| π0.7(ViLLA架构) | 隐式动作标记 + MoE系统 | 强(小样本迁移) | 精准且适应性强 | 是 |
对行业的影响与未来展望
- GPT-3时刻:如同大语言模型在NLP领域的突破,π0.7被认为是机器人领域的GPT-3时刻,标志具身智能进入新阶段。
- 生态构建:智元通过Go-1模型与Genie Studio平台推动行业标准化,加速技术普及。
- 数据驱动进化:百万级真机数据集(AgiBot World)支持持续学习与模型优化,增强实际场景适应力。
- 多形态部署:实现“一脑多形”,适配不同形态机器人,如远征系列、灵犀系列等,提升通用性。
商业与技术演进路径
- 品牌与生态布局:智元定位为机器人中的“苹果”,专注品牌、设计与算法,采用轻资产运营模式。
- 具身智能分级体系:按照G1-G5等级划分演进路径,当前主流水平为G2,π0.7有望推动行业向G3/G4迈进。
- 开放平台战略:推出Genie Studio开放平台,降低开发者门槛,加速商业化落地。