具身机器人研究全都错了?最新论文:不能只靠VLA和世界模型

VLA并非万能:它能听懂“拿杯子”却不懂杯子会滑

过去两年,视觉-语言-动作(VLA)模型几乎成了具身机器人“大脑”的标准答案。它把大模型的能力接入机器人——视觉看环境、语言理解指令、动作执行任务。优必选Walker S2、智平方AlphaBot 2、宇树科技UnifoLM-VLA等产品都搭载VLA,让机器人从“固定动作执行”迈向“开放任务理解”。

但VLA的短板同样致命。它能识别“打开抽屉”,却不懂手、把手、阻尼和摩擦之间的关系;它能理解“抓起衣服”,却无法预测衣服被抓起后如何变形。正如英伟达首席科学家范麟熙(Jim Fan)所言,VLA擅长语义泛化,却在新环境、新物理动作的泛化上存在困难。流形空间创始人武伟指出,VLA本质是将高维度视频域降维到语言域,再通过模仿学习做“机器翻译”——它只“知其然”,不知“其所以然”,一旦遇到训练数据中从未出现的长尾场景,便束手无策。

世界模型并非终点:预测未来世界也会“穿模”犯错

当VLA的物理推理缺陷暴露后,世界模型迅速成为新的热点。AMI Labs CEO预言“六个月后,每家公司都会自称世界模型公司”。世界模型回答的是“如果我这样做,世界会怎样?”,比如预测拍手时双手如何接近、接触、反弹,声音如何产生。

具身机器人研究全都错了?最新论文:不能只靠VLA和世界模型

然而,世界模型本身存在严重幻觉风险。在视频生成中,物体穿模、反重力、边界模糊可能只是画面瑕疵,但在机器人训练中会变成错误的物理经验。市场上有超过30家公司宣称拥有世界模型,但定义存在争议——有人要求精确预测潜在状态和物理因果,有人则认为像素级视频预测就足够。一位AI从业者坦言:“世界模型没有一个标准定义,每个流派背后都有大佬撑腰。”

英伟达WAM:把世界预测和动作生成绑在一起

Jim Fan在2026年4月提出World Action Model(WAM),并让“VLA安息”。他参与署名的论文《World Action Models are Zero-shot Policies》提出了DreamZero系统,基于视频扩散骨干,同时预测未来世界状态和动作。这意味着模型不再把物理建模压缩成一个“动作头”,而是通过视频作为世界演化的稠密表征,联合建模视频与动作。真实机器人实验中,WAM在新任务、新环境泛化上相较VLA基线取得超过2倍提升。

但英伟达并未彻底抛弃VLA。他们用Cosmos世界模型为GR00T等机器人生成训练数据,表明真实路线是“把VLA、世界模型、合成数据、仿真、真实数据和低层控制重新组合”。Jim Fan送别的不是视觉、语言、动作三种能力,而是那种把大量能力放在语言理解上、却把物理动力学压缩到动作头的传统范式。

未来架构是四层融合:任务理解、状态预测、运动控制、数据闭环

任何单一模型都无法解决机器人的全部问题。正确的路线应当分层构建:第一层是任务理解,靠VLA知道要做什么、目标在哪;第二层是状态预测,靠世界模型或WAM回答动作后世界如何变化;第三层是运动控制,把高层意图变成连续的轨迹、力控、避障;第四层是数据闭环,从每一次成功和失败中回收数据,判断是识别、预测还是控制出错。

国内已有探索。智平方的GOVLA 1.0(Video2Act)虽然整体仍是VLA架构,但明确嵌入了世界模型,引入快慢系统——慢系统中运行世界模型,完成任务拆解、逻辑推理和行动预测。创始人郭彦东表示:“把世界模型融入VLA,让VLA具备更强的泛化能力,是VLA变得更强的必由之路。”南大新论文也指出,应基于世界模型强化学习,使机器人先在内部模拟再执行,从而突破模仿学习的瓶颈。

机器人不是ChatGPT套一个机械臂,也不是VLM后面接一个动作头。真实世界的连续性、物理性和不可逆性,决定了它必须学习动作如何改变世界。VLA是任务入口,世界模型是物理预测器,控制系统是执行器,真实数据是校准器——缺一不可。