李飞飞看不下去了，亲自下场“辟谣”世界模型

1 个月前

AI资讯

47 阅读

世界模型李飞飞 AI术语辟谣

李飞飞为何亲自下场？只因“世界模型”被装进同一个筐

计算机视觉、机器人、强化学习和生成式AI各领域的人士都宣称在研发世界模型，但各方所指内涵截然不同。能生成绚丽却违反物理规律的火焰的视频模型、能即兴生成游戏的语言模型、能精准模拟燃烧过程的物理引擎，如今都被装进“世界模型”这同一个筐里。斯坦福大学教授、空间智能创业公司World Labs联合创始人兼CEO李飞飞看不下去了，她与团队发布新文章《世界模型的功能分类》，系统拆解了这个当下AI领域最重要、也最被滥用的术语之一。她直言，古希腊学者始终无法统一世界的本源，根源在于“世界”从来没有唯一定义；如今AI领域承袭了这一难题，亟需精准定义。

一张经典原理图，说清世界模型的技术源头

想厘清概念乱象，得从一张早于所有相关技术的经典原理图入手——部分可观测马尔可夫决策过程（POMDP）。数十年来，强化学习教科书都在用这套图示描述智能体与环境的交互闭环：智能体执行动作 → 动作改变环境状态 → 智能体通过观测获取局部信息 → 观测指导新动作。李飞飞指出，“世界模型”最初的技术定义便诞生于这套理论体系。如今各类冠以世界模型的产品，本质都是这套闭环的不同实现方向，各自只输出闭环中的某一部分信息。智能体、动作、环境状态、观测信息构成的交互闭环，奠定了现代世界模型的技术定义。

渲染器、仿真器、规划器：三大功能类别各司其职

李飞飞将当下庞大且混乱的世界模型产品归纳为三大功能类别：

李飞飞看不下去了，亲自下场“辟谣”世界模型

渲染器（Renderer）：以像素画面形式输出可供人类观看的观测信息，核心评判标准是视觉还原度。视频生成模型、交互式实时画面系统（如Google Genie 3、World Labs RTFM）均属此类。渲染器只生成人类肉眼所见画面，而非客观真实结构——航拍镜头里的建筑从上空看毫无破绽，但驾车穿行城下建筑结构就会崩坏。
仿真器（Simulator）：输出在几何、物理、动力学层面贴合客观规律的环境状态。渲染器只满足视觉效果，仿真器则要恪守结构真实性：几何结构经得起校验、物理规则符合牛顿定律、物体动力学表现贴合现实规律。仿真器同时服务建筑师、设计师等从业者，以及强化学习智能体、机器人控制器、自动驾驶等程序。
规划器（Planner）：输出动作指令，依托观测信息与预设目标给出智能体下一步行动方案。视觉-语言-动作（VLA）模型、世界动作模型等属于规划器方向，能为非结构化环境中的机器人制定行动策略。

李飞飞强调，三类模型底层并不割裂——几何、物理、动力学这套描述客观世界运行逻辑的基础知识是三者共用的底层原理。理论上，能从任意视角渲染杯子的模型，也能仿真杯子被推倒后的状态，还能规划机械手抓取杯子的动作。

仿真器：关注度最低，却是产业价值与技术难题的“双料冠军”

在三类模型中，仿真器受到的大众关注度最低，却具备最深远的产业价值。渲染器是商业化落地最成熟的品类，多款文生图、文生视频产品正快速渗透市场，但以视觉逼真度为优化目标，无法被用于建筑设计、机器人训练等需要严谨物理逻辑的场景。规划器发展前景最受期待，但技术尚处起步阶段，绝大多数演示局限在条件严苛的实验室环境中，从实验室到商用机器人仍有巨大技术鸿沟。

仿真技术则扮演衔接渲染与规划的桥梁角色。如果说语言是世界的抽象概括、像素是世界的视觉投影，那么几何、物理与动力学规律就是世界本身。仿真器立足客观规律搭建底层结构，渲染所需的外观画面、规划所需的动作结果，都能从这套结构中衍生而来。仿真器的商业化市场空间十分庞大——仅英伟达Omniverse，其面向工厂、仓储、供应链、数字孪生的潜在市场规模就被预估超万亿美元。但AI领域诸多棘手的待解难题也集中在仿真赛道：三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患（AI生成模型存在面相交、尺寸失真等导致物理运算失真的问题）、多物理场仿真的高算力成本。

三模型加速融合，大一统世界基础模型是终极形态

行业的技术变革还在持续推进。李飞飞指出，当下最关键的趋势是三类模型正在相互融合——实现环境渲染、物理仿真、动作规划所依托的底层世界知识高度同源。真正掌握杯子在桌面几何形态、材质、受力规律的模型，既能从任意角度渲染杯子画面，也能仿真杯子被碰倒的全过程，还能规划机械手抓取动作。多家机器人实验室的研究已证实，预训练视频渲染模型可作为环境与动作联合预测的底层基座，打通渲染器和规划器的技术壁垒。World Labs推出的Marble已实现单模型同时输出高斯泼溅画面与碰撞网格，打破渲染器和仿真器的界限。

技术演进的终极形态是“大一统世界基础模型”：单一基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构，又能生成动作序列，可根据下游需求灵活切换输出形式。不过落地之路仍有重重挑战：各类模型数据储备不均衡——渲染模型坐拥海量互联网视频素材，仿真与规划模型却紧缺三维资源与机器人实操数据；优先优化视觉效果往往会损耗物理精度。在同一套模型架构中平衡各项需求，是当前世界模型领域最核心的攻关课题。李飞飞强调，从上世纪80年代末延续至今的行业核心猜想正驱动着新一代科研攻关：只要构建足够完备的世界模型，智能体就能够感知、搭建环境并在其中自主行动。而这一猜想的落地底气，正源自渲染、仿真、规划三大技术路线的融合趋势——原本各自独立研发、且均已催生千亿级产业的赛道，正逐步融为一体，推动空间智能完成漫长的产业进化。

李飞飞看不下去了，亲自下场“辟谣”世界模型

李飞飞为何亲自下场？只因“世界模型”被装进同一个筐

一张经典原理图，说清世界模型的技术源头

渲染器、仿真器、规划器：三大功能类别各司其职

仿真器：关注度最低，却是产业价值与技术难题的“双料冠军”

三模型加速融合，大一统世界基础模型是终极形态

链接失效反馈