首页

登录

π0.7发布，VLA押出了机器人的GPT-3时刻

1 个月前

AI资讯

27 阅读

视觉语言模型 [机器人技术动作预测迁移学习]

π0.7发布的技术意义

ViLLA架构：π0.7基于ViLLA（Vision-Language-Latent-Action）架构，融合视觉、语言和隐式动作标记，实现跨模态感知与决策。
隐式动作预测：通过Latent Action Tokens，解决了视觉与语言输入到机器人动作执行之间的语义转换难题。
突破VLA瓶颈：相比传统VLA模型，π0.7首次展现出从训练数据中“涌现”的新能力，而非单纯任务扩展。

核心能力提升

长程任务规划：引入动态进化学习机制，提高任务执行的连贯性与环境适应性。
小样本迁移学习：利用人类视频数据，实现快速跨场景、跨机型技能迁移。
多专家协同：整合VLM模块与MoE系统，包括隐式规划器和动作专家，形成完整的“感知-决策-执行”闭环。

π0.7发布，VLA押出了机器人的GPT-3时刻

应用表现数据

在五项复杂任务测试中，π0.7的平均任务成功率从46%提升至78%，性能提升显著：

倒水：提升12%
桌面清理：提升10%
饮料补给：提升15%
其他两项任务：分别提升约8%和7%

与VLM和VLA模型的对比

模型类型	特点	泛化能力	动作控制	是否具备“涌现”能力
VLM（视觉语言模型）	依赖互联网图文数据	强	无法直接控制动作	否
VLA（视觉语言动作模型）	将VLM输出转化为动作指令	弱	精度高但泛化受限	否
π0.7（ViLLA架构）	隐式动作标记 + MoE系统	强（小样本迁移）	精准且适应性强	是

对行业的影响与未来展望

GPT-3时刻：如同大语言模型在NLP领域的突破，π0.7被认为是机器人领域的GPT-3时刻，标志具身智能进入新阶段。
生态构建：智元通过Go-1模型与Genie Studio平台推动行业标准化，加速技术普及。
数据驱动进化：百万级真机数据集（AgiBot World）支持持续学习与模型优化，增强实际场景适应力。
多形态部署：实现“一脑多形”，适配不同形态机器人，如远征系列、灵犀系列等，提升通用性。

商业与技术演进路径

品牌与生态布局：智元定位为机器人中的“苹果”，专注品牌、设计与算法，采用轻资产运营模式。
具身智能分级体系：按照G1-G5等级划分演进路径，当前主流水平为G2，π0.7有望推动行业向G3/G4迈进。
开放平台战略：推出Genie Studio开放平台，降低开发者门槛，加速商业化落地。