刚刚,李飞飞亲自下场定义世界模型

李飞飞三大能力重新定义何为“世界模型”

当业界还在争论世界模型究竟是“视频生成器”还是“物理模拟器”时,李飞飞亲自下场给出清晰答案。她将世界模型拆解为三个核心能力:生成性——模型必须能生成具有感知、几何和物理一致性的世界;可推理——对空间关系和因果逻辑进行理解;可交互——生成的3D场景能实时响应人的操作。这一定义直接对标人类空间智能的底层机制,也让World Labs的技术路线有了明确坐标:不再只是“拍照片转3D”,而是要让模型真正“懂”这个世界的结构。

刚刚,李飞飞亲自下场定义世界模型

Spark 2.0开源:让3D渲染像视频一样流式传输

World Labs最新成果的亮点是开源3D高斯溅射渲染引擎Spark 2.0。针对“大世界塞进手机浏览器”这个核心痛点,团队为3D高斯溅射打造了可流式传输的LoD(细节层次)系统。用户用手机拍一圈照片,生成的高精度3D场景不再需要下载数GB文件,而是像看短视频一样边浏览边加载,重新定义了Web 3D渲染的实时性和轻量化。这一代码的公开意味着开发者可以自由接入,加速空间智能在移动端的应用。

单块H100即实时渲染:RTFM模型颠覆性能门槛

除了渲染引擎,World Labs同步推出实时帧模型RTFM(Real-Time Frame Model)。根据官方技术报告,该模型仅需单块H100 GPU就能实现实时交互式3D渲染——过去需要多卡集群甚至云渲染才能完成的任务,现在一块显卡即可。这意味着用户端设备成本大幅降低,普通消费级显卡也能支撑起沉浸式的3D世界生成与漫游,为游戏、XR、建筑设计等场景打开直接落地的通道。

从“生成”到“流式交互”:空间智能的平民化拐点

李飞飞团队这次的产品序列(Spark 2.0 + RTFM + Marble 1.1/1.2更新)构成了一条完整链路:先用Marble模型从单张图片或视频生成3D高斯溅射表示,再通过RTFM实时渲染,最后用Spark 2.0在浏览器中流式交互。这也呼应了李飞飞本人对世界模型的定义——不只是生成静态3D,而是支持动态推理与实时反馈。当3D场景生成成本从“数小时云端计算”骤降到“单显卡毫秒级渲染”,普通人用手机就能创造并探索可交互的数字世界,空间智能正在经历类似当年智能手机普及的“平民化拐点”。