别再碰瓷100 亿美元“身价”的世界模型了，李飞飞这次手把手教你分辨

1 个月前

AI资讯

49 阅读

人工智能世界模型物理模拟李飞飞

半年吸金百亿，但99%的“世界模型”都是冒牌货

过去18个月里，超过100亿美元资金涌入标榜“世界模型”和机器人AI的公司。然而，李飞飞和World Labs团队近日一针见血地指出：“世界模型”已成为AI领域最重要且最被滥用的术语。一个能生成华丽但物理上不可能火焰的视频模型、一个即兴生成可玩游戏的语言模型、以及一个忠实模拟燃烧的物理引擎，统统被冠以同一名号——这种混乱正在误导资本与技术走向。上个月，MoE Capital的Henry Yin与Naomi Xia也直言，大多数自称“世界模型”的东西根本不具备世界模拟能力。李飞飞的文章正是在这团迷雾中掷下一枚坐标弹。

从古希腊哲学到强化学习：世界模型本该有的原始骨架

要理清混乱，必须回到源头。李飞飞追溯至强化学习的经典结构——“部分可观测马尔可夫决策过程”（POMDP）。这个循环从智能体出发，经过行动、状态、观测，再回到智能体，构成了“世界模型”术语的原始根基。而这一思想甚至可以追溯到1943年Kenneth Craik提出的“心智通过运行现实的‘小规模模型’进行推理”。今天被冠以世界模型的各类系统，不过是这个循环在不同环节的投影：有人只输出观测（像素），有人只模拟状态变化，有人只规划行动。把任意一个环节的产物称作完整“世界模型”，无异于将砖头称为大楼。

第一类：渲染器——美丽但可能“虚胖”

什么是渲染器？ 它输出的是人类肉眼可见的观测结果，核心指标是视觉保真度。文本生成视频的模型、交互式实时生成画面的系统（如Google的Genie 3、World Labs自己的RTFM）都属于此类。它们能从提示词生成电影级航拍镜头，但对三维结构和物理规律毫无内在理解。建筑从上方看完美无瑕，一旦试图在其中行驶，结构便会崩塌。李飞飞直言：渲染器优化的是“看起来是什么”，而非“实际上是什么”。

商业成熟度：最高。大量图像/文本生成视频产品正在消费级和企业市场快速扩张，Google的Nano Banana模型已惠及数亿用户。但天花板也很明确——输出无法用于设计建筑或训练真实机器人。

第二类：模拟器——物理准确的“硬骨头”

什么是模拟器？ 模拟器输出的是状态：物理量、网格、交互作用。它回答的是“世界接下来会怎样”，而不是“世界看起来怎样”。一个能预测杯子被推动后如何滑动、水泼出后如何溅开的系统，才是模拟器。与渲染器不同，模拟器追求的是物理准确性和因果一致性。

技术难度极高。具有明确几何、材料属性和物理标注的三维数据极度稀缺，远不及互联网视频。仿真到现实之间的鸿沟依然巨大，AI生成的几何可能包含自相交或尺度错误，导致物理行为毫无意义。多物理场（刚体、可变形物体、流体、布料相互作用）的大规模模拟，计算成本比单一领域高出数个数量级。World Labs的Marble系统正是这一方向的尝试：它能从多模态提示生成可探索的三维环境，同时输出用于视觉的Gaussian splats和供物理引擎使用的碰撞网格，初步打破了渲染器与模拟器的界限。

第三类：规划器——智能体行动的“大脑”

什么是规划器？ 规划器输出的是行动。给定观测和目标，它回答“下一步应该做什么”。它是渲染器的反向：渲染器以行动为输入生成观测，规划器以观测为输入生成行动，从而闭合感知-行动循环。视觉-语言-动作模型、基于模型的方法以及新一代的World Action Models都属于规划器。它们在非结构化世界中决定机器人该如何行动，是通往具身智能的关键。

开放难题：规划器严重缺乏机器人演示数据，三维资产和高质量交互数据比渲染器依赖的视频稀缺得多。数据分布极不均衡，导致对视觉美感的优化往往牺牲精确性，难以直接用于物理环境中的决策。

终点：三者边界消融，统一世界模型正在路上

李飞飞明确指出，三类划分并非割裂。一个能任意角度渲染杯子的模型，原则上也应能模拟杯子被推动的物理过程，并规划手去抓取它。越来越多前沿研究正在模糊边界：多个机器人实验室的工作表明，预训练的视频渲染器可以作为联合世界与行动预测的基础，让同一个模型既能想象未来，也能决定行动；World Labs的Marble已能同时输出视觉和碰撞数据。其逻辑终点是一个统一的世界模型——一个基础模型，既能渲染照片级真实视图，又能生成物理准确的结构，还能规划行动序列，并根据下游需求在不同输出模式之间切换。

李飞飞在文末点出：“语言让机器能够谈论世界。而世界模型，将让机器最终能够理解、想象、推理并与世界互动。”真正决定下一阶段AI上限的，不是更会“说话”的模型，而是更接近物理真实的“模拟能力”。当渲染器、模拟器与规划器的边界完全消失时，它们将共同重塑机器智能与其所处物理世界之间的关系——这正是空间智能的长期演进轨迹。