阿里发布世界模型 HappyOyster（快乐生蚝）1.0

6 天前

AI资讯

21 阅读

世界模型 AI交互 [阿里数字世界]

从“生成视频”到“创造世界”：四大核心能力重塑AI交互

HappyOyster由阿里ATH创新事业部研发，基于原生多模态架构与流式生成世界模型，主打“漫游（Wander）”、“导演（Direct）”、“创造（Create）”、“分享（Share）”四大能力。用户输入一句话或一张图即可生成一个完整、可交互的数字世界，支持第一人称或第三人称视角自由探索，并通过WASD与方向键实时控制位移与镜头。传统AI视频只能“等成片”，而HappyOyster允许用户在任意节点用文字指令控镜头、调角色、改剧情走向，实现真正的“导演模式”。此外，用户还可分别设定角色与场景，生成的世界自带BGM和行走的NPC，并通过录制与画廊功能分享自己的世界，形成创作生态。

阿里发布世界模型 HappyOyster（快乐生蚝）1.0

长时世界建模+音画同步：三大技术难点被攻克

团队重点突破了三项核心技术，确保“实时交互、长时连贯、音画同步”。第一，长时世界建模：模型通过海量长视频数据学习真实世界运行规律，采用历史注意力状态连续传递机制，避免生成久了就错乱；同时设计多样控制信号（文本、动作、图像等），让外部指令持续影响后续演化。第二，多模态联合生成：音频作为世界动态的一部分参与联合生成，通过共享条件约束与协同解码实现音画语义一致。第三，低延迟流式推理：模型对世界状态进行高度压缩的隐式建模，大幅降低单步计算开销，实现低延迟持续推理。这些技术让模型从“被动生成内容”升级为“主动模拟世界、让用户参与演化”。

野心不止于娱乐：文旅、机器人、数字人场景全打开

阿里ATH强调，HappyOyster的本质是对开放世界状态进行持续建模、预测与响应，天然适合需要“实时感知—实时生成—实时反馈”闭环的现实场景。例如在文旅展陈中，模型可作为实时演化的世界引擎，连接摄像头、麦克风、传感器、显示终端等设备，根据人的位置、动作、语言动态生成视觉内容与事件反馈；机器人训练、数字人陪伴、教育演练、智能空间交互等方向均可复用此能力。与硬件系统结合后，HappyOyster承载的将不仅是一个“内容生成器”，而是一个被现实输入持续驱动的生成式环境系统。

内测亮点与短板：对标谷歌Genie3，差异化走“创作型”路线

实测中，HappyOyster在画面一致性上表现突出：光照随视角变化、物体位置稳定、角色动作逻辑连贯，这得益于长时间跨度的世界演化建模。其“导演模式”是独家的差异化优势——谷歌Genie3更侧重“可玩”，而HappyOyster偏向“可创作”，用户可用文字或语音修改剧情、调度角色，生成3分钟以上实时画面，门槛更低。但作为内测产品，短板也明显：控制人物移动或镜头旋转时存在卡顿，流畅度有待提升；漫游与导演两大模式尚未完全打通，无法实现“边探索边创作”的无缝体验。团队表示，世界模型仍属前沿探索，距离“通用世界模拟器”目标尚远。

阿里发布世界模型 HappyOyster（快乐生蚝）1.0

从“生成视频”到“创造世界”：四大核心能力重塑AI交互

长时世界建模+音画同步：三大技术难点被攻克

野心不止于娱乐：文旅、机器人、数字人场景全打开

内测亮点与短板：对标谷歌Genie3，差异化走“创作型”路线

链接失效反馈