阿里巴巴发布视频生成模型 HappyHorse 1.1:更强动态表现力、更高生成一致性、更优视觉质感

盲测屠榜之后再进化:HappyHorse 1.1如何“更上一层楼”

此前,HappyHorse 1.0以匿名身份登顶Artificial Analysis视频竞技场排行榜,凭借1333Elo分力压Seedance 2.0、可灵等主流闭源模型,引发全网“猜谜”热潮。如今,阿里巴巴正式发布升级版HappyHorse 1.1,在维持150亿参数、40层统一自注意力Transformer架构的基础上,针对核心场景进行了深度优化。

  • 动态表现力增强:通过优化时序建模与运动轨迹预测,新版本在人物表情、肢体动作及多镜头切换时的流畅度显著提升,尤其在人像特写、口播类内容中,动作自然度接近真人演绎。
  • 生成一致性突破:针对此前用户反馈的多人物、复杂场景下画面易崩坏的问题,1.1版本强化了全局上下文感知能力,确保同一视频序列中角色形象、背景细节的连贯性,大幅降低“跳帧”和“鬼影”现象。
  • 视觉质感升级:在影像清晰度、色彩还原和光影层次上引入新的后处理优化,单张H100上生成5秒1080p视频耗时仍保持在约38秒,但输出画质更接近电影级质感,用户盲测偏好度进一步提升。

阿里巴巴发布视频生成模型 HappyHorse 1.1:更强动态表现力、更高生成一致性、更优视觉质感

原生音视频联合生成:七大语言唇形同步,词错误率再创新低

HappyHorse的核心技术亮点在于“原生音视频联合生成”,不同于市面常见的分步拼接方案,它将文本、视频、音频三种模态的token统一序列建模,从训练阶段就实现声画同步。1.1版本进一步优化了多语言唇形同步的精准度,在原有支持英语、普通话、粤语等七种语言的基础上,词错误率(WER)降至同类开源模型最低水平,为数字人直播、虚拟主播、多语言内容创作提供了可靠基础。

  • 四大主要场景测试中,文本转视频(无音频)和图像转视频(无音频)均超过Seedance 2.0和可灵3.0;文本转视频(有音频)小幅领先;图像转视频(有音频)与Seedance 2.0持平。
  • 实际测试中,单一人物口播场景表现最佳,但多人出镜或复杂运镜时仍需进一步优化——这也是1.1版本努力攻克的方向。

从“神秘模型”到“社区鲶鱼”:开源策略如何重塑视频生成格局?

HappyHorse最初以化名“达芬奇魔法人类”在Github开源,由上海创智学院GAIR实验室与北京Sand.ai(三呆科技)联合开发。如今阿里巴巴正式将其纳入千问生态并开源,意味着开发者可以自由部署、量化、微调。

  • 本地部署门槛:模型推理需H100级别显卡,普通消费级卡暂不可用,但社区已着手量化方案;1.1版本在推理速度上稍作优化,但暂未支持消费级GPU。
  • 场景专注性:当前版本对人像、数字人、虚拟主播等垂直场景有显著优势,但多人物、长叙事、复杂物理交互仍是短板——社区有望通过微调弥补。
  • 商业意义:开源模型效果首次在用户盲测中正面比肩闭源阵营,打破“开源不可交付”的固有认知,为依赖成品供应的创作用户提供了成本更优、隐私更强的选择。

“快乐马”提速:阿里云百炼平台内部上线,一周后全球开放

据最新消息,HappyHorse 1.1已在阿里云百炼平台内部上架,预计一周后正式对外发布API接口。用户届时可通过网页端直接体验或调用API,无需本地部署即可享受高质量视频生成能力。这一举措背靠阿里云强大的算力基础设施,有望降低开发者进入门槛,加速视频内容创作领域的AI普及。