0.9B跑出90%真机成功率,上海交大为VLA补上空间感

普通摄像头如何让VLA“看到”三维世界

当前主流的视觉-语言-动作模型(VLA)虽然能理解图像内容和语言指令,却严重缺乏真实操作所需的3D空间理解能力——它们本质上仍是在2D图像上做文本到动作的映射。上海交大团队开源的Evo-Depth模型,仅凭单个普通摄像头采集的多视角画面,就能为VLA实时补全深度和几何结构。这种做法绕开了昂贵的深度传感器,也不依赖主动测距,而是通过多视图间的几何约束,在模型内部重建出机器人对物体位置、姿态和空间关系的感知。这种“轻量级空间感”让VLA第一次在真实物理世界中有了立体的视觉底座。

0.9B参数撬动90%真机成功率

Evo-Depth的参数量仅有0.9B,却能在仿真和真实机器人测试中同时取得优异表现。在包含30个复杂真机任务的RoboChallenge基准上,搭载该空间模块的VLA策略完全基于开源数据训练,没有使用任何闭源或私有数据,就取得了29%的平均成功率——这一数字大幅超过了π₀、X-VLA、RDT-1B等一众开源模型。而在更基础的几何推理和操作任务上,Evo-Depth驱动的VLA系统在真实机械臂上达到了90%的成功率,证明小模型只要补对了“空间感”,完全可以在真实世界中可靠执行。

把部署效率做到“即插即用”

除了性能,上海交大团队特别强调了Evo-Depth的部署友好性。0.9B的参数量意味着它可以直接运行在算力有限的边缘设备上,甚至通过普通摄像头而非深度相机就能工作。团队在设计时专门做了轻量化推理优化,使得模型在真实机器人环上能够达到实时帧率。这种“即插即用”的特性让研究者和开发者无需更换硬件或改造现有机器人平台,就能直接把空间感知能力嵌入到已有的VLA框架中,大幅降低了从仿真到真机的迁移成本。

开源路线验证:不走闭源也能打

Evo-Depth另一个关键贡献是证明了开源路线的竞争力。在RoboChallenge上,所有对比模型中,只有Evo-Depth系统完全使用公开数据集训练,不依赖任何商业闭源数据或特殊硬件。而它最终在复杂任务上的表现不仅超过了多个基于互联网图文数据预训练的开源模型,甚至还优于一些使用私有数据训练的闭源方案。这一结果意味着,补足空间感这件事并不需要依赖昂贵的专有资源,通过精巧的几何先验和轻量化设计,开源社区同样能做出具备实用价值的VLA空间模块。