与谷歌 Genie3 正面交锋,阿里发布世界模型HappyOyster:从被动生成到主动模拟

阿里巴巴于4月16日正式发布了其世界模型产品HappyOyster(快乐生蚝),该模型由阿里ATH(Alibaba Token Hub)创新事业部团队研发,与此前引发关注的HappyHorse(快乐马)同属一个团队。HappyOyster基于原生多模态架构构建,支持文本、动作指令和图像等多种输入信号的理解与生成,标志着AI生成模型从“被动生成内容”向“主动模拟世界演化”的重大跃迁。

HappyOyster的核心能力

  • 漫游能力(Wander)
    用户仅需一句话或一张图像,HappyOyster即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,并支持第一人称视角移动与光照变化。

  • 导演能力(Direct)
    用户可在视频任意节点,通过自然语言、语音或图像指令随时介入世界演化,实现剧情改写、角色调度、镜头切换等操作,极大提升创作灵活性。

这一实时交互与生成的能力,使HappyOyster不仅适用于内容创作,还能在游戏开发、影视分镜、教育文旅等多个场景中提供高效解决方案。

技术路径与模型架构

HappyOyster不同于传统文生视频模型的“输入提示-等待渲染”流程,而是采用世界演化建模方式。它通过学习海量长视频数据,并结合文本、动作指令和图像参考等多模态控制信号,主动理解空间布局、物理规律和因果逻辑。

与谷歌 Genie3 正面交锋,阿里发布世界模型HappyOyster:从被动生成到主动模拟

这一原生多模态架构使得模型在长时间演化过程中仍能保持高度一致性,无论是场景结构还是角色行为都能自然衔接。相比当前主流的大语言模型架构,世界模型仍在探索阶段,HappyOyster在这一领域的突破具有前瞻性意义。

与谷歌Genie 3的对比

谷歌在2026年1月将其世界模型Genie 3商业化,命名为Project Genie,纳入AI Ultra订阅服务中,月费为$249.99。虽然Genie 3也支持动态世界模拟,并能根据用户的移动实时生成前方路径,展现出良好的交互性与物理一致性,但其主要依赖动作信号输入,控制方式较为单一。

相比之下,HappyOyster在输入方式和场景控制方面更为灵活,支持多模态交互,用户可通过自然语言随时调度角色、改写剧情,甚至调整风格题材。这种“主动模拟”的能力,使其在内容创作与沉浸式体验方面具备更强的应用潜力。

应用场景与未来展望

HappyOyster已在多个领域展现出广泛的应用前景:

  1. 游戏开发:开发者可快速生成可玩原型,缩短开发周期;
  2. 影视创作:导演通过自然语言即可实时生成分镜画面,并在任意节点修改剧情;
  3. 文旅与教育:用户可“走进”名画或历史场景,以第一人称探索因果、改写事件;
  4. 线下智能空间:未来有望与穿戴设备结合,根据用户位置、动作与语言动态生成沉浸式内容,实现数字与现实的共振。

阿里表示,HappyOyster将持续迭代,目标是打造一个真正可交互、可控制、可持续演化的通用世界模拟器。

商业化与开放策略

目前HappyOyster已上线官网:https://www.happyoyster.cn,用户生成的数字世界不仅可被完整保存,还能开放给其他用户进行二次创作,形成内容共创生态。

与谷歌将Genie 3纳入付费订阅不同,阿里的开放策略更强调用户参与与社区共创,未来可能通过内容平台、API接口、创作者激励等方式推进商业化路径。