VLA不会死,但不融合世界模型的除外
“VLA已死”是误读,英伟达送别的只是旧范式
2025年4月,英伟达首席科学家范麟熙在红杉AI Ascent大会上“为VLA默哀”的发言引爆行业焦虑,许多人误以为VLA范式已然终结。但仔细审视其发言全貌与后续行动可知,范麟熙真正埋葬的并非“视觉-语言-动作”这三个基础能力,而是那种将高维物理世界压缩为“视觉/语言输入→动作输出”的简化范式。英伟达自身并未放弃VLA:其Cosmos世界基础模型仍在为GR00T机器人模型生成训练数据,同时将VLA、世界模型、合成数据、仿真与低层控制重新组合。正如行业共识所述,“VLA不会死”——它仍然是机器人理解任务的核心接口,但必须进化。
物理世界的“翻译困境”:语言域降维的致命短板
传统VLA的核心机制是将高维视频信息降维到语言域进行对齐训练。这种范式擅长语义泛化——机器人能识别“杯子”并理解“拿杯子”的指令——却对物理过程一知半解。流形空间CEO武伟指出,VLA本质是基于VLM基座模型做“机器翻译”任务的后训练,只能“知其然”地复刻经验,无法预测动作的连锁反应。当机器人试图抓取一件衣服时,它不知道布料会如何变形;打开抽屉时,它不理解阻尼、摩擦与力之间的关系。小鹏董事长何小鹏曾感叹:“一段1200多字的文字描述,也无法精准‘翻译’一个十几秒视频。”这种因语言转译造成的精度缺失,使机器人在面对光线折射、物体变形等物理变化时错误频出。更致命的是,VLA模型与特定机器人本体强绑定,换一种构型就需大量重新训练,部署成本居高不下。

世界模型并非万能,但填补了“预测”空白
世界模型的核心能力不是执行动作,而是预测:在当前状态下如果执行某个动作,下一时刻的世界会变成什么样?范麟熙提出的World Action Model(WAM)更进一步,让模型同时预测未来世界状态和机器人动作,将“世界预测”与“动作生成”统一在同一架构中。其论文中的DreamZero系统在真实机器人实验中,新任务、新环境泛化能力相较VLA基线提升超过2倍。然而,世界模型自身也存在风险:定义模糊、幻觉频发。视频生成中物体穿模、反重力等瑕疵,在机器人训练中会变成错误物理经验。正如业内人士提醒,“不能因为VLA有短板,就把世界模型推上神坛”——它补的是“物理预判”这块短板,但必须接受真实世界校验。
智平方的答案:将世界模型融入VLA的“慢系统”
当业界争论VLA与世界模型谁取代谁时,智平方给出了融合方案。2025年11月,智平方联合北大推出Video2Act架构,首次将视频扩散模型直接作为VLA的“世界模型引擎”,通过Sobel+FFT显式时空表征提取技术,让模型在生成动作时结合对未来状态演变的隐式推演。2026年4月发布的全球首个类脑架构VLA具身大模型NeuroVLA,进一步实现三大突破:全域感知、全身控制与统一决策。智平方创始人郭彦东明确提出VLA三阶段演进论:从传统VLA(感知-理解-行动统一建模)到世界模型增强VLA(用世界模型生成训练数据),最终达到世界模型融入VLA(如Video2Act)。他强调:“把世界模型融入VLA,让VLA具备更强的泛化能力,是VLA变强的必由之路。”
从路线之争到能力分层:通用机器人的终局架构
机器人智能的真正落地需要四层能力协同,而非单一技术路线替代:
- 任务理解层:依赖VLA完成指令解析、目标定位与成功标准判断。
- 状态预测层:由世界模型或WAM负责,预测动作后的物理状态变化。
- 运动控制层:执行高层意图,包括轨迹规划、力控、避障与异常恢复。
- 数据闭环层:从每次成功或失败中回收数据,迭代系统边界。
VLA更像是任务入口,世界模型是物理预测器,控制系统是执行器,真实数据是校准器。2026年4月,由Philip Torr、Pieter Abbeel等全球顶尖学者联合发布的综述《World Model for Robot Learning》首次系统归纳了“世界模型+VLA+机器人学习”的技术路线,明确指出融合进化才是物理世界AI的正确答案。那些试图只用互联网图文视频和几张机械臂遥操作数据就想造出通用机器人的“纯VLA”,确实该被埋进土里;但融合了世界模型的VLA,正在长成真正可部署的机器人智能系统。