阿里发布世界模型 HappyOyster(快乐生蚝)1.0
从“生成视频”到“创造世界”:四大核心能力重塑AI交互
HappyOyster由阿里ATH创新事业部研发,基于原生多模态架构与流式生成世界模型,主打“漫游(Wander)”、“导演(Direct)”、“创造(Create)”、“分享(Share)”四大能力。用户输入一句话或一张图即可生成一个完整、可交互的数字世界,支持第一人称或第三人称视角自由探索,并通过WASD与方向键实时控制位移与镜头。传统AI视频只能“等成片”,而HappyOyster允许用户在任意节点用文字指令控镜头、调角色、改剧情走向,实现真正的“导演模式”。此外,用户还可分别设定角色与场景,生成的世界自带BGM和行走的NPC,并通过录制与画廊功能分享自己的世界,形成创作生态。

长时世界建模+音画同步:三大技术难点被攻克
团队重点突破了三项核心技术,确保“实时交互、长时连贯、音画同步”。第一,长时世界建模:模型通过海量长视频数据学习真实世界运行规律,采用历史注意力状态连续传递机制,避免生成久了就错乱;同时设计多样控制信号(文本、动作、图像等),让外部指令持续影响后续演化。第二,多模态联合生成:音频作为世界动态的一部分参与联合生成,通过共享条件约束与协同解码实现音画语义一致。第三,低延迟流式推理:模型对世界状态进行高度压缩的隐式建模,大幅降低单步计算开销,实现低延迟持续推理。这些技术让模型从“被动生成内容”升级为“主动模拟世界、让用户参与演化”。
野心不止于娱乐:文旅、机器人、数字人场景全打开
阿里ATH强调,HappyOyster的本质是对开放世界状态进行持续建模、预测与响应,天然适合需要“实时感知—实时生成—实时反馈”闭环的现实场景。例如在文旅展陈中,模型可作为实时演化的世界引擎,连接摄像头、麦克风、传感器、显示终端等设备,根据人的位置、动作、语言动态生成视觉内容与事件反馈;机器人训练、数字人陪伴、教育演练、智能空间交互等方向均可复用此能力。与硬件系统结合后,HappyOyster承载的将不仅是一个“内容生成器”,而是一个被现实输入持续驱动的生成式环境系统。
内测亮点与短板:对标谷歌Genie3,差异化走“创作型”路线
实测中,HappyOyster在画面一致性上表现突出:光照随视角变化、物体位置稳定、角色动作逻辑连贯,这得益于长时间跨度的世界演化建模。其“导演模式”是独家的差异化优势——谷歌Genie3更侧重“可玩”,而HappyOyster偏向“可创作”,用户可用文字或语音修改剧情、调度角色,生成3分钟以上实时画面,门槛更低。但作为内测产品,短板也明显:控制人物移动或镜头旋转时存在卡顿,流畅度有待提升;漫游与导演两大模式尚未完全打通,无法实现“边探索边创作”的无缝体验。团队表示,世界模型仍属前沿探索,距离“通用世界模拟器”目标尚远。