刚刚，李飞飞亲自下场定义世界模型

1 个月前

AI资讯

42 阅读

[世界模型空间智能李飞飞 3D场景]

李飞飞三大能力重新定义何为“世界模型”

当业界还在争论世界模型究竟是“视频生成器”还是“物理模拟器”时，李飞飞亲自下场给出清晰答案。她将世界模型拆解为三个核心能力：生成性——模型必须能生成具有感知、几何和物理一致性的世界；可推理——对空间关系和因果逻辑进行理解；可交互——生成的3D场景能实时响应人的操作。这一定义直接对标人类空间智能的底层机制，也让World Labs的技术路线有了明确坐标：不再只是“拍照片转3D”，而是要让模型真正“懂”这个世界的结构。

刚刚，李飞飞亲自下场定义世界模型

Spark 2.0开源：让3D渲染像视频一样流式传输

World Labs最新成果的亮点是开源3D高斯溅射渲染引擎Spark 2.0。针对“大世界塞进手机浏览器”这个核心痛点，团队为3D高斯溅射打造了可流式传输的LoD（细节层次）系统。用户用手机拍一圈照片，生成的高精度3D场景不再需要下载数GB文件，而是像看短视频一样边浏览边加载，重新定义了Web 3D渲染的实时性和轻量化。这一代码的公开意味着开发者可以自由接入，加速空间智能在移动端的应用。

单块H100即实时渲染：RTFM模型颠覆性能门槛

除了渲染引擎，World Labs同步推出实时帧模型RTFM（Real-Time Frame Model）。根据官方技术报告，该模型仅需单块H100 GPU就能实现实时交互式3D渲染——过去需要多卡集群甚至云渲染才能完成的任务，现在一块显卡即可。这意味着用户端设备成本大幅降低，普通消费级显卡也能支撑起沉浸式的3D世界生成与漫游，为游戏、XR、建筑设计等场景打开直接落地的通道。

从“生成”到“流式交互”：空间智能的平民化拐点

李飞飞团队这次的产品序列（Spark 2.0 + RTFM + Marble 1.1/1.2更新）构成了一条完整链路：先用Marble模型从单张图片或视频生成3D高斯溅射表示，再通过RTFM实时渲染，最后用Spark 2.0在浏览器中流式交互。这也呼应了李飞飞本人对世界模型的定义——不只是生成静态3D，而是支持动态推理与实时反馈。当3D场景生成成本从“数小时云端计算”骤降到“单显卡毫秒级渲染”，普通人用手机就能创造并探索可交互的数字世界，空间智能正在经历类似当年智能手机普及的“平民化拐点”。

刚刚，李飞飞亲自下场定义世界模型

李飞飞三大能力重新定义何为“世界模型”

Spark 2.0开源：让3D渲染像视频一样流式传输

单块H100即实时渲染：RTFM模型颠覆性能门槛

从“生成”到“流式交互”：空间智能的平民化拐点

链接失效反馈