首次,纯人类视频预训练VLA灵巧操作,少量数据微调就能部署成功
从人类随手视频到机器人训练数据:VITRA的自动化生产线
传统机器人VLA模型面临的最大瓶颈是高质量操作数据的稀缺。手动标注机器人动作轨迹不仅成本高昂,而且难以规模化。VITRA提出了一种全自动方法,将互联网上大量非结构化的真实人类视频(如做饭、组装等日常活动)转化为与机器人训练格式完全对齐的结构化VLA数据。该流程包含三个核心技术:首先,利用最新的3D视觉技术(深度估计、相机姿态追踪、三维人手重建)从视频中提取每一帧的人手3D姿态信息,包括手腕位置、旋转以及手指关节弯曲度,甚至相机自身的运动轨迹也被精确记录,使模型真正“看懂”人手的空间动作。其次,针对长视频中复杂的连续操作,研究团队设计了原子级动作分割算法,自动将长视频切分为“拿起物体”“放下”“旋转”等短促、语义明确的原子片段。最后,将这些带有轨迹高亮的图像输入给GPT-4,自动生成以祈使句形式描述的语言指令(如“将红色积木放到蓝色盒子里”),从而构建出包含100万个片段、2600万帧的超大规模手部V-L-A数据集。
“认知特征”+扩散专家:为灵巧手量身打造的VLA模型
基于自建的人类手部数据集,研究团队设计了一个专为灵巧操作打造的VLA模型架构。该模型由两个核心组件组成:一个视觉-语言模型(VLM)骨干网络(基于PaliGemma-2)和一个扩散动作专家(Diffusion Transformer,DiT)。具体来说,VLM接收视觉观察、语言指令和相机视场角信息,输出一个“认知特征”(Cognition Feature),这个特征包含了场景理解与语言语义的高层抽象。随后,扩散动作专家以该认知特征为条件,通过去噪过程生成精细的连续动作序列。为了应对人类视频中快速移动的手部动作,模型采用了因果注意力机制,确保每个动作步骤的预测仅依赖之前的动作,有效避免了零填充带来的负面影响。这种设计使得模型在抓取任务和一般动作预测任务中显著优于在实验室环境下收集的数据(如EgoDex)上训练的模型,甚至优于使用原始人类标注数据训练的模型。值得注意的是,全参数训练后,模型依然能保持原有VLM的通用视觉理解能力,例如即使从未见过特定物体照片,也能根据语言指令准确选出目标并生成合理的抓取动作。

1.2K条数据微调即成功:真实世界灵巧操作验证
VITRA框架的真正价值体现在真实机器人部署环节。实验团队使用一款名为星动XHAND1的全直驱灵巧手,仅需约1,200条真实机器人遥操作数据对预训练模型进行微调,即可在真实世界中执行包括抓取、放置、倾倒和清扫等多种灵巧操作任务。对比实验表明,与未经过人类VLA数据预训练的模型或在其他数据集(如OXE、EgoDex)上预训练的模型相比,VITRA在任务成功率上取得了显著提升,尤其面对从未见过的物体和背景时,展现出卓越的鲁棒性和泛化能力。在零样本设置下,模型已经具备强大的手部动作预测能力,能够直接在新场景中生成合理的操作轨迹。这种“少量数据+快速微调”的模式大幅降低了机器人部署的门槛,使其从实验室Demo走向实际应用成为可能。
全直驱灵巧手:让算法指令瞬间落地
硬件协同是VITRA成功的关键一环。星动XHAND1灵巧手采用了全直驱设计,彻底消除了传统减速器带来的巨大摩擦、迟滞和非线性干扰,赋予了灵巧手超灵敏的动态响应能力。这种“数字孪生”级别的模型支持,使得VITRA在微调阶段能够将人类关节角度精准映射到灵巧手的对应关节上,大幅降低了从人类视频到真实硬件的现实鸿沟。全直驱系统能够瞬间且精准地执行VITRA模型输出的动作指令,安全地操作各种未知物体。此外,星动XHAND1配备的高分辨率触觉阵列等丰富传感器,为未来VILA模型融合触觉反馈、处理更精细的“指尖步态”任务预留了广阔空间。目前的VITRA主要依赖视觉输入,而触觉阵列的加入将有望实现多模态感知的闭环。
Scaling Law显现:数据规模越大,机器人越聪明
研究团队还观察到了明显的缩放行为:随着预训练使用的真实人类视频数据规模增大,微调后的VLA模型在真实机器人上的任务成功率持续提升。这种明显的缩放行为表明,通过进一步扩大人类视频数据的规模,有望持续提升VLA模型的性能。这一发现与当前大语言模型领域“数据即性能”的Scaling Law高度一致,意味着人类日常操作视频(如短视频平台上海量的手部操作内容)将成为具身智能领域最具潜力的“数据金矿”。VITRA框架开创性地将机器人VLA模型的预训练从昂贵、低效的真机数据采集模式,转向了低成本、可无限扩展的人类视频利用模式,为具身智能的规模化发展提供了一条明确的技术路径。