智源大会

重新定义“世界模型”:三步理解框架打破行业混乱

当前业界对“世界模型”的定义各有说法,Skywork首席科学家刘扬在智源大会上直言这一概念存在混乱。他提出了一套清晰的三步理解框架:首先,模型需要准确理解当下的状态——不仅包括视觉信息,还要掌握物体的物理属性;其次,基于当前状态预测下一个状态;最后,将预测结果渲染成可呈现的画面。这一框架将感知、推理与生成统一起来,为后续技术突破奠定了逻辑基础。

智源大会 | 天工AI重新定义世界模型,公布Matrix-Game 3.5 最新技术突破

联合训练“下一帧”与“动作”:让AI从理解走向预判

Matrix-Game 3.5的最大创新在于提出了一种全新的联合训练框架。团队发现,如果分开处理下一帧状态生成和动作生成,模型的预测准确度会受限;而将两者联合训练,能让AI在学习“世界如何变化”的同时学会“如何应对变化”。刘扬解释,这种端到端的协同训练显著提升了模型对状态理解和状态预测的准确性,使AI不再只是被动渲染画面,而是能主动参与到因果推理中。

从游戏走向真实:PRoPE机制与三维空间记忆重塑架构

Matrix-Game 3.5实现了从游戏场景到真实世界应用的跨越。新版本支持多种风格的动态切换、指令控制以及NPC交互,并大幅增强了长期记忆能力。在核心技术层面,团队用PRoPE机制替代了传统的额外参数注入,利用相机投影矩阵让模型直接感知相机的相对位置,从而减少对原始视频数据分布的影响。同时,记忆机制从简单的历史帧存储升级为三维空间块检索,大幅提高了画面的一致性和稳定性,让AI在长时间交互中不再“失忆”。

数据基石与未来蓝图:五百万视频片段背后的野心

支撑Matrix-Game 3.5的是Skywork团队建立的三条自动化数据生产线,已产出超过500万个高质量视频片段、超过1万小时的有效训练时间,以及覆盖1200多个游戏场景的数据集。刘扬透露,团队的下一个目标是创建原生统一的世界模型框架,让世界模型不仅限于游戏,还能跨越到机器人控制与物理世界的互动中。这意味着Matrix-Game 3.5将成为连接虚拟与现实的技术桥梁,为具身智能提供核心引擎。