世界模型元年启示录:动机、乱战与暗礁
4月16日,阿里巴巴发布了开放式世界模型Happy Oyster,腾讯开源了3D世界模型HY-World 2.0。此前不到一个月,李飞飞的World Labs完成10亿美元融资,Yann LeCun的AMI Labs以10.3亿美元种子轮震惊硅谷。
一、All in世界模型背后的动机
你问一个大语言模型(LLM):“把杯子从桌子边缘推下去会怎样?”它会回答“杯子会掉到地上”。但这个答案是基于训练数据的统计记忆,而不是真正理解重力、加速度和碰撞机制。
当AI进入真实世界,比如控制机器人、驾驶汽车、或在工厂作业,这种“大概正确”的判断就不再适用。AI不仅要“看见”,更要“预判”,不仅要“能说”,更要“能做”。
这正是世界模型被推到聚光灯下的根本原因。
大厂们押注世界模型,本质是在争夺“后LLM时代”的技术制高点。谁先让AI真正理解物理世界,谁就能主导下一轮产业周期。
- 美国路线:DeepMind、World Labs、AMI Labs更偏向基础科学,关注如何让AI拥有物理直觉和因果推理能力,商业化是远期目标。
- 中国路线:阿里和腾讯则迅速绑定商业场景,Happy Oyster瞄准影视制作和游戏开发的付费用户,HY-World 2.0直接输出Unity/UE可用的3D资产,做起了AI造世界的生意。
二、技术路线的分裂与混乱
世界模型目前并没有统一的技术标准,不同团队选择了截然不同的方向。
Yann LeCun的JEPA架构:抽象隐空间预测
JEPA(Joint Embedding Predictive Architecture)刻意丢弃像素细节,只在抽象的隐空间中做预测。其最新模型LeWorldModel仅1500万参数,单GPU几小时即可训练完毕,但规划速度比传统方法快了48倍。
缺点是:输出人类看不懂,只能“相信”模型正确,而不能直观验证。
李飞飞的Marble模型:显式3D重建
World Labs的Marble模型可以从一张照片或文字生成可编辑、可导航的3D世界,用户能在其中自由移动视角。
但你不能推椅子、不能打翻杯子,它是一个静态世界的复刻者,而非动态物理模拟器。
生成派:谷歌Genie 3、阿里Happy Oyster、腾讯HY-World 2.0
这一阵营的目标是打造“可交互的3D世界”:
- 阿里 Happy Oyster:支持“导演模式”,用户可在视频播放中输入文字指令改变剧情和镜头角度。
- 腾讯 HY-World 2.0:输出可导入Unity/UE的3D资产,实用导向明显。
- 谷歌 Genie 3:演示惊艳但画面几分钟后开始走样,物理准确性存疑。
英伟达:生产“生产世界模型的工具”
Cosmos平台提供数据处理管线、视频分词器、预训练基础模型,全部免费开放下载。
黄仁勋的思路清晰:无论哪条路线胜出,训练和推理都需要英伟达的GPU。
三、模糊地带:技术、数据与伦理困境
尽管各家都在用“世界模型”一词包装产品,但真正能模拟物理世界变化的模型仍凤毛麟角。
技术标准模糊
一个关键指标是:是否支持“动作条件化”。也就是说,输入一个动作,模型是否能预测世界状态的变化。
- 李飞飞 Marble:只能看不能动,更像是3D重建工具。
- 阿里 Happy Oyster、谷歌 Genie 3:支持交互,但物理准确性不一。
- 腾讯 HY-World 2.0:输出静态资产,不涉及动态预测。
数据困境
训练世界模型需要大量“观察、动作、结果”三元组数据,但现实中没有现成数据集。
- 有人尝试用第一人称视频,但视频中缺乏动作标签。
- 人类动作中头部和手部运动纠缠,AI难以分辨。
评估体系缺失
各家公司都在宣称“登顶全球权威评测榜”,但这些榜单本身就不成熟。
- 有的侧重视觉逼真度,有的侧重物理准确性,有的侧重任务完成率。
- 一个模型在视觉榜单第一,可能在物理榜单垫底。
算力与体验的矛盾
你不可能同时做到“世界很大、画面清晰、交互流畅”。
- Marble 1.1:画质好但空间范围有限。
- Marble 1.1-Plus:生成大场景但画质模糊。
- 昆仑万维 Matrix-Game 3.0:能实时生成720P视频,但场景复杂度低。
资本转向年轻学者
在范式尚未定型的阶段,资本开始从“大厂老兵”转向押注顶尖高校的年轻学者。
- 逆矩阵科技的两位创始人,一位98年、一位04年,来自北大。
- 他们以“强化学习+世界模型”为路线,目前只有论文、无产品。
Yann LeCun自己都承认,AMI的产品商业化要等几年,更何况刚毕业的博士生?
责任边界不明
世界模型的目标是让AI预测甚至干预物理世界。但问题来了:
- 如果AI预测错了,谁来负责?
- 如果一个自动驾驶汽车的世界模型“想象”出一个不存在的障碍物,导致紧急刹车并引发追尾事故,谁该被追责?
- 如果有人用世界模型生成逼真的虚假3D灾难视频,引发恐慌,平台有没有审核义务?
- 法律又如何界定“虚拟与现实混淆”的伤害?
目前,没有任何一家公司、任何一个国家,给出了清晰的答案。
四、小结:世界模型元年,泡沫与希望并存
世界模型是当前AI技术发展的新高地,它被视为通向具身智能、自动驾驶、智能制造的关键一环。
但目前:
- 没有统一的技术标准;
- 没有成熟的数据集;
- 没有稳定的评估体系;
- 更没有明确的法律责任归属。
当资本和媒体聚焦于“谁能造出最逼真的虚拟世界”时,一个更根本的问题却被忽略了:我们,真的准备好了吗?
不是算力,不是数据,不是算法,而是责任。
这才是世界模型赛道最被低估的变量。