硬氪专访

7 小时前
2 阅读

VLA不会死:从“感知-动作”进化到“预测-推演”

当行业出现“世界模型要取代VLA”的声音时,智源研究院院长王仲远给出了明确判断:“VLA不会死。”他指出,那些试图只用互联网图文视频和几张机械臂遥操作数据就幻想造出通用机器人的VLA,确实该被埋进土里,但另一种东西正在长出来。仙工智能也持类似观点:只要机器人还需要看见环境、理解指令、完成物理作业,Vision、Language、Action三大核心要素就永远不会消失。会变的不是VLA本身,而是它的组织方式和进化形态——从过去“感知到动作”的线性映射,进阶为融合世界模型后的“预测、推演、执行”全新阶段。世界模型的出现不是终结VLA,而是补上机器人对物理世界的“想象力”和“预判力”,让VLA从知道“现在是什么”升级为能预判“接下来会发生什么”。

世界模型不是“猪在天上飞”:四类路线都尚未触及物理本质

“很多人把视频生成模型等同于世界模型,这是典型的概念误用。”王仲远在采访中直言。视频生成模型可以生成“猪在天上飞”的画面,因为它采用大量科幻电影训练,训练目标从来不是还原真实物理规则,只是通过大量视频学习捕捉到一定的世界知识。语言大模型能答对高考物理题,但也不代表它理解真实物理世界的交互逻辑。王仲远将当前主流世界模型技术路径分为四类:以语言为中心、以像素为中心、以三维结构为中心、以视觉表征为中心。但他坦言,这四类模型距离真正面向物理世界的基座模型都有很大距离。真正能理解物理规律的世界模型,其核心目标是“预测下一个物理状态”——这正是智源试图突破的方向。

数据枯竭:卡住世界模型脖子的核心瓶颈

“为何现在的机器人不能像人类一样灵活应对各种场景?核心就是缺乏对世界常识、物理规律的通用理解。”王仲远指出,一个杯子从桌边掉下来会发生什么,人类一眼就能判断,但现在的AI要完成感知、理解、交互、决策的完整链路,还无法完全做到。数据是当前世界模型发展的核心瓶颈之一:真实物理世界的多模态交互数据极度稀缺,不同技术路线对数据的需求也不相同。他判断,未来随着具身硬件的普及,有了“物理世界的互联网”,真实物理世界数据得到大规模积累后,才有可能真正催生出跨时代的世界模型——就像当年数字互联网数据催化了大语言模型的爆发一样。但同时也需警惕:仿真数据有用,但仿真永远不能达到100%的真实,因为人类掌握的物理知识、引擎规则和算法还不够完备。

智源走出第五条路:物理隐空间颠覆像素级预测

2025年智源研究院发布的悟界.Emu3.5,内置时空关系、因果逻辑与物理世界演化规律建模能力,攻克了生成内容违背真实世界物理规则的痛点,原创成果于2026年1月刊发于《Nature》正刊。本届智源大会上,智源又发布了全球首个通用世界基座模型悟界.Physis-v0.1,尝试走出第五个世界模型技术路径——以物理隐空间表征替代传统像素、帧级预测方案。该模型搭载专属物理状态编码器,可将视频、深度RGB、3D点云、力触反馈等全模态信息统一压缩成标准化的隐空间物理状态(Latent State),支持50多个复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力。王仲远表示:“我们尝试把不同模态的信息都压缩到同一个物理隐空间,再解码成不同的下游输出。目前还只是0.1版本,我们希望推动行业扎扎实实把底层问题做透。”

具身智能的终局:不是模型对决,是系统闭环

尽管世界模型与VLA的路线之争极具话题性,但产业界更关注真正的落地。仙工智能指出:“世界模型能让机器人更会‘想’,但不能单独保证机器人更会‘做’。”真实产业场景中,货物偏移、地面坡度、托盘变形、人员穿行等挑战层出不穷,机器人不仅要会预测,更要实时执行、快速纠偏、全程可控。这需要模型、控制系统、数据闭环和真实场景共同构成系统能力。王仲远也呼吁行业共建评测体系,围绕“预测下一个物理状态”构建统一基准。未来的具身智能不会只走向VLA,也不会只依赖世界模型,而是走向“模型+数据+控制+场景”的系统化机器人大脑。扎根物理世界,让智能走出实验室,才能真正赋能千行百业。