李飞飞的世界模型宣言
从“黑暗中的文匠”到空间智能的觉醒
大语言模型让AI学会了遣词造句和逻辑推理,但李飞飞尖锐地指出,它们只是“黑暗中的文匠”:能言善辩,却毫无物理经验。她认为,真正的智能根植于一个更古老的认知进化基石——空间智能,即人类理解、导航并与三维世界交互的底层能力。这种能力驱动着从远古狩猎到现代科学的每一次文明飞跃,从古埃及人测量地球周长到电影人构建虚拟世界,它都扮演着核心角色。为了赋予机器这种能力,李飞飞与其联合创始人共同创立了World Labs,并发表宣言:空间智能是AI的下一个伟大前沿,它将连接想象、感知与行动。
构建世界模型的“铁三角”:生成、理解与交互
李飞飞明确提出了能够解锁空间智能的核心引擎——世界模型,并定义了它必须具备的三项核心能力。首先,生成性,模型必须能够生成具有几何、物理与语义一致性的虚拟世界,而不仅仅是像素;它需要遵循重力、光影反射和物体恒存性等物理规律。其次,多模态输入与输出,模型应能处理不完整的信息,无论是文本、图片、视频还是手势动作,并据此预测并生成完整的、连续的世界状态。最后,交互性与场景一致性,世界模型必须将动作作为输入,并能够预测动作引发的下一个世界状态,且在探索过程中保持场景的长期连贯性,而非像当前多数视频扩散模型那样在数秒后崩塌。

突破技术的“三重门”:任务函数、数据与架构
实现上述目标绝非易事,李飞飞点出了三大关键的技术攻坚方向。第一大挑战是定义一种新的通用训练任务函数。就像大语言模型中的“下一个Token预测”一样,世界模型需要找到一种简洁且优雅的通用目标函数,但它必须反映几何与物理规律,而非文本序列。
第二大挑战是大规模训练数据的获取与利用。尽管互联网上的图像与视频浩如烟海,但如何从中提取深度的几何与空间信息仍是核心难题。高质量的合成数据、深度图和触觉数据等额外模态将成为关键补充。
第三大挑战是模型架构与表征学习的革新。现有语言模型与视频生成模型的一维或二维序列架构难以胜任三维空间推理。World Labs为此研发了RTFM(实时生成帧模型),它通过“空间锚定的帧”作为空间记忆形式,在保持世界一致性的同时实现了高效的实时生成与交互。
Marble问世:从理论宣言到首个商业化产品
李飞飞的宣言并非空中楼阁。2025年11月,World Labs正式推出了其首款产品——Marble,这也是全球首个投入商用的世界模型。Marble能够通过单张图片、一段视频甚至一句话的文本提示,快速创建高保真、可自由漫游且持久化的3D虚拟环境。与同类产品不同,Marble生成的并非动态生成的“幻觉”画面,而是可下载、可编辑的3D环境(支持高斯泼溅、网格等格式),显著减少了场景变形与不一致性。产品立即面向公众开放了免费增值与付费订阅服务(标准版每月20美元),标志着李飞飞正在将空间智能理念转化为让创作者触手可及的强大工具。
重塑未来:从创造力到科学的“空间智能”图景
在宣言中,李飞飞描绘了世界模型将如何重塑人类文明的多个维度。
- 创造力与沉浸式体验:Marble平台将前所未有的空间表达与编辑控制权交给电影人、游戏设计师和建筑师,让他们能以惊人的效率快速构建、迭代和探索完整的三维世界,彻底革新叙事与沉浸式体验。
- 具身智能与机器人:世界模型将成为机器人的“训练天堂”,通过在无限接近真实的仿真环境中大量训练,解决当前机器人训练数据匮乏的瓶颈,最终孕育出能在厨房、实验室和医院中与人流畅协作的智能体。
- 科学、医疗与教育:具备空间智能的模型能够模拟实验、加速药物发现、辅助精准诊断,并通过沉浸式学习环境让学生能够“走”进细胞或“亲历”历史事件,彻底改变知识的获取与理解方式。
- 终极演进路径:李飞飞及团队进一步将世界模型解构为渲染器、模拟器和规划器三大功能。她强调,模拟器是理解物理世界的基础,而三者的最终融合将通往一个统一的世界基础模型,让AI能在生成画面、模拟物理过程和规划行动序列之间无缝切换,最终实现机器智能与物理世界的深度融合。