BEV 杀入具身智能:跨维把机器人数据带上 Scaling 快车道
纯视觉方案的“各自为政”之痛
在自动驾驶的早期探索中,纯视觉多相机方案一度陷入僵局:每个摄像头独立感知自己的视野——前摄看前方、侧摄看侧面,各出一套检测结果,再强行拼接交给规划系统。这种“拼图式”处理的致命弱点在于,数据停留在图像坐标系里,而非真实的物理世界。一旦视角、光线或场景发生变化,系统性能便断崖式下跌。数据堆得越多,不同相机各自为政的混乱局面反而越严重。直到BEV(Bird's-Eye View,鸟瞰视图)的出现,才真正打破这一困局。它不再要求算法在图像里“猜”世界,而是将多相机、多传感器、多任务的输出统一压入一个可被规划系统直接消费的物理坐标系,让自动驾驶完成了一次关键跃迁——从在图像里猜测世界,到在物理空间里理解世界。
机器人数据堆得越多,混乱越严重
如今的具身智能,正站在与自动驾驶当年同样的十字路口。机器人数据天生异构:一条典型的操作数据可能同时包含多视角图像、深度图、相机参数、关节状态、末端轨迹、语言指令、任务成败标签乃至真实反馈等多维信息。更棘手的是,这些数据来自不同的相机、不同的机器人本体、不同的操作者,每一种都使用独立的坐标系。没有统一的空间参考系,数据越多,信息熵就越大——这不是规模化,而是“熵暴”。机器人行业早已意识到,单纯堆叠数据无法让模型获得泛化能力,混乱的结构反而会成为算法收敛的障碍。跨维智能敏锐地捕捉到这一痛点:数据规模并非Scaling的关键,数据空间的对齐才是。
跨维把BEV方法论搬进机器人基建
跨维智能提出的Dexterity-BEV,正是要在具身智能领域重做一次自动驾驶中已获验证的空间重构。其核心思路非常直接:把视觉输入、机器人状态和目标动作,全部对齐到同一个参考系里。在这一框架下,无论机器人前端搭载了多少个摄像头、以何种姿态介入任务,系统都能将多源感知与本体状态统一映射到物理空间中的鸟瞰网格上。这意味着,机器人数据第一次真正具备了可规模化训练的空间底座——就像当年自动驾驶用BEV终结了“拼图式”感知一样,Dexterity-BEV为具身智能提供了规划系统可直接消费的标准化空间表示。它不再是工程师的工具,而是数据基建层的底层协议。
一条操作数据里的“信息宇宙”被统一编码
以具体的机器人操作场景为例:机器人抓起一个物体,这条数据里可能藏着左视角RGB图像、右视角深度图、相机内参外参、6自由度的末端轨迹、关节角度序列、自然语言指令以及任务成败结果。在传统处理方式中,这些信息彼此孤立,无法在同一个坐标系下交互。Dexterity-BEV通过将每条数据的所有模态信息投影到一个共享的BEV网格中,让视觉特征、状态向量与动作标签在空间上形成显式对齐。当大量异构数据经过这样的预处理后,模型可以跨本体、跨场景地学习通用的空间操作模式。跨维智能的这一步,并不是在算法层面做微调,而是为整个具身智能的基础设施“修路”——在数据登上Scaling快车道之前,先铺好标准化的路基。