别再碰瓷100 亿美元“身价”的世界模型了,李飞飞这次手把手教你分辨

半年吸金百亿,但99%的“世界模型”都是冒牌货

过去18个月里,超过100亿美元资金涌入标榜“世界模型”和机器人AI的公司。然而,李飞飞和World Labs团队近日一针见血地指出:“世界模型”已成为AI领域最重要且最被滥用的术语。一个能生成华丽但物理上不可能火焰的视频模型、一个即兴生成可玩游戏的语言模型、以及一个忠实模拟燃烧的物理引擎,统统被冠以同一名号——这种混乱正在误导资本与技术走向。上个月,MoE Capital的Henry Yin与Naomi Xia也直言,大多数自称“世界模型”的东西根本不具备世界模拟能力。李飞飞的文章正是在这团迷雾中掷下一枚坐标弹。

从古希腊哲学到强化学习:世界模型本该有的原始骨架

要理清混乱,必须回到源头。李飞飞追溯至强化学习的经典结构——“部分可观测马尔可夫决策过程”(POMDP)。这个循环从智能体出发,经过行动、状态、观测,再回到智能体,构成了“世界模型”术语的原始根基。而这一思想甚至可以追溯到1943年Kenneth Craik提出的“心智通过运行现实的‘小规模模型’进行推理”。今天被冠以世界模型的各类系统,不过是这个循环在不同环节的投影:有人只输出观测(像素),有人只模拟状态变化,有人只规划行动。把任意一个环节的产物称作完整“世界模型”,无异于将砖头称为大楼。

第一类:渲染器——美丽但可能“虚胖”

什么是渲染器? 它输出的是人类肉眼可见的观测结果,核心指标是视觉保真度。文本生成视频的模型、交互式实时生成画面的系统(如Google的Genie 3、World Labs自己的RTFM)都属于此类。它们能从提示词生成电影级航拍镜头,但对三维结构和物理规律毫无内在理解。建筑从上方看完美无瑕,一旦试图在其中行驶,结构便会崩塌。李飞飞直言:渲染器优化的是“看起来是什么”,而非“实际上是什么”。

商业成熟度:最高。大量图像/文本生成视频产品正在消费级和企业市场快速扩张,Google的Nano Banana模型已惠及数亿用户。但天花板也很明确——输出无法用于设计建筑或训练真实机器人。

第二类:模拟器——物理准确的“硬骨头”

什么是模拟器? 模拟器输出的是状态:物理量、网格、交互作用。它回答的是“世界接下来会怎样”,而不是“世界看起来怎样”。一个能预测杯子被推动后如何滑动、水泼出后如何溅开的系统,才是模拟器。与渲染器不同,模拟器追求的是物理准确性和因果一致性

技术难度极高。具有明确几何、材料属性和物理标注的三维数据极度稀缺,远不及互联网视频。仿真到现实之间的鸿沟依然巨大,AI生成的几何可能包含自相交或尺度错误,导致物理行为毫无意义。多物理场(刚体、可变形物体、流体、布料相互作用)的大规模模拟,计算成本比单一领域高出数个数量级。World Labs的Marble系统正是这一方向的尝试:它能从多模态提示生成可探索的三维环境,同时输出用于视觉的Gaussian splats和供物理引擎使用的碰撞网格,初步打破了渲染器与模拟器的界限。

第三类:规划器——智能体行动的“大脑”

什么是规划器? 规划器输出的是行动。给定观测和目标,它回答“下一步应该做什么”。它是渲染器的反向:渲染器以行动为输入生成观测,规划器以观测为输入生成行动,从而闭合感知-行动循环。视觉-语言-动作模型、基于模型的方法以及新一代的World Action Models都属于规划器。它们在非结构化世界中决定机器人该如何行动,是通往具身智能的关键。

开放难题:规划器严重缺乏机器人演示数据,三维资产和高质量交互数据比渲染器依赖的视频稀缺得多。数据分布极不均衡,导致对视觉美感的优化往往牺牲精确性,难以直接用于物理环境中的决策。

终点:三者边界消融,统一世界模型正在路上

李飞飞明确指出,三类划分并非割裂。一个能任意角度渲染杯子的模型,原则上也应能模拟杯子被推动的物理过程,并规划手去抓取它。越来越多前沿研究正在模糊边界:多个机器人实验室的工作表明,预训练的视频渲染器可以作为联合世界与行动预测的基础,让同一个模型既能想象未来,也能决定行动;World Labs的Marble已能同时输出视觉和碰撞数据。其逻辑终点是一个统一的世界模型——一个基础模型,既能渲染照片级真实视图,又能生成物理准确的结构,还能规划行动序列,并根据下游需求在不同输出模式之间切换。

李飞飞在文末点出:“语言让机器能够谈论世界。而世界模型,将让机器最终能够理解、想象、推理并与世界互动。”真正决定下一阶段AI上限的,不是更会“说话”的模型,而是更接近物理真实的“模拟能力”。当渲染器、模拟器与规划器的边界完全消失时,它们将共同重塑机器智能与其所处物理世界之间的关系——这正是空间智能的长期演进轨迹。