具身机器人研究全都错了？最新论文：不能只靠VLA和世界模型

1 个月前

AI资讯

69 阅读

世界模型 VLA 具身机器人机器人研究

VLA并非万能：它能听懂“拿杯子”却不懂杯子会滑

过去两年，视觉-语言-动作（VLA）模型几乎成了具身机器人“大脑”的标准答案。它把大模型的能力接入机器人——视觉看环境、语言理解指令、动作执行任务。优必选Walker S2、智平方AlphaBot 2、宇树科技UnifoLM-VLA等产品都搭载VLA，让机器人从“固定动作执行”迈向“开放任务理解”。

但VLA的短板同样致命。它能识别“打开抽屉”，却不懂手、把手、阻尼和摩擦之间的关系；它能理解“抓起衣服”，却无法预测衣服被抓起后如何变形。正如英伟达首席科学家范麟熙（Jim Fan）所言，VLA擅长语义泛化，却在新环境、新物理动作的泛化上存在困难。流形空间创始人武伟指出，VLA本质是将高维度视频域降维到语言域，再通过模仿学习做“机器翻译”——它只“知其然”，不知“其所以然”，一旦遇到训练数据中从未出现的长尾场景，便束手无策。

世界模型并非终点：预测未来世界也会“穿模”犯错

当VLA的物理推理缺陷暴露后，世界模型迅速成为新的热点。AMI Labs CEO预言“六个月后，每家公司都会自称世界模型公司”。世界模型回答的是“如果我这样做，世界会怎样？”，比如预测拍手时双手如何接近、接触、反弹，声音如何产生。

具身机器人研究全都错了？最新论文：不能只靠VLA和世界模型

然而，世界模型本身存在严重幻觉风险。在视频生成中，物体穿模、反重力、边界模糊可能只是画面瑕疵，但在机器人训练中会变成错误的物理经验。市场上有超过30家公司宣称拥有世界模型，但定义存在争议——有人要求精确预测潜在状态和物理因果，有人则认为像素级视频预测就足够。一位AI从业者坦言：“世界模型没有一个标准定义，每个流派背后都有大佬撑腰。”

英伟达WAM：把世界预测和动作生成绑在一起

Jim Fan在2026年4月提出World Action Model（WAM），并让“VLA安息”。他参与署名的论文《World Action Models are Zero-shot Policies》提出了DreamZero系统，基于视频扩散骨干，同时预测未来世界状态和动作。这意味着模型不再把物理建模压缩成一个“动作头”，而是通过视频作为世界演化的稠密表征，联合建模视频与动作。真实机器人实验中，WAM在新任务、新环境泛化上相较VLA基线取得超过2倍提升。

但英伟达并未彻底抛弃VLA。他们用Cosmos世界模型为GR00T等机器人生成训练数据，表明真实路线是“把VLA、世界模型、合成数据、仿真、真实数据和低层控制重新组合”。Jim Fan送别的不是视觉、语言、动作三种能力，而是那种把大量能力放在语言理解上、却把物理动力学压缩到动作头的传统范式。

未来架构是四层融合：任务理解、状态预测、运动控制、数据闭环

任何单一模型都无法解决机器人的全部问题。正确的路线应当分层构建：第一层是任务理解，靠VLA知道要做什么、目标在哪；第二层是状态预测，靠世界模型或WAM回答动作后世界如何变化；第三层是运动控制，把高层意图变成连续的轨迹、力控、避障；第四层是数据闭环，从每一次成功和失败中回收数据，判断是识别、预测还是控制出错。

国内已有探索。智平方的GOVLA 1.0（Video2Act）虽然整体仍是VLA架构，但明确嵌入了世界模型，引入快慢系统——慢系统中运行世界模型，完成任务拆解、逻辑推理和行动预测。创始人郭彦东表示：“把世界模型融入VLA，让VLA具备更强的泛化能力，是VLA变得更强的必由之路。”南大新论文也指出，应基于世界模型强化学习，使机器人先在内部模拟再执行，从而突破模仿学习的瓶颈。

机器人不是ChatGPT套一个机械臂，也不是VLM后面接一个动作头。真实世界的连续性、物理性和不可逆性，决定了它必须学习动作如何改变世界。VLA是任务入口，世界模型是物理预测器，控制系统是执行器，真实数据是校准器——缺一不可。

具身机器人研究全都错了？最新论文：不能只靠VLA和世界模型

VLA并非万能：它能听懂“拿杯子”却不懂杯子会滑

世界模型并非终点：预测未来世界也会“穿模”犯错

英伟达WAM：把世界预测和动作生成绑在一起

未来架构是四层融合：任务理解、状态预测、运动控制、数据闭环

链接失效反馈