阿里巴巴发布视频生成模型 HappyHorse 1.1：更强动态表现力、更高生成一致性、更优视觉质感

1 天前

AI资讯

3 阅读

阿里巴巴 AI 视频生成模型 HappyHorse

盲测屠榜之后再进化：HappyHorse 1.1如何“更上一层楼”

此前，HappyHorse 1.0以匿名身份登顶Artificial Analysis视频竞技场排行榜，凭借1333Elo分力压Seedance 2.0、可灵等主流闭源模型，引发全网“猜谜”热潮。如今，阿里巴巴正式发布升级版HappyHorse 1.1，在维持150亿参数、40层统一自注意力Transformer架构的基础上，针对核心场景进行了深度优化。

动态表现力增强：通过优化时序建模与运动轨迹预测，新版本在人物表情、肢体动作及多镜头切换时的流畅度显著提升，尤其在人像特写、口播类内容中，动作自然度接近真人演绎。
生成一致性突破：针对此前用户反馈的多人物、复杂场景下画面易崩坏的问题，1.1版本强化了全局上下文感知能力，确保同一视频序列中角色形象、背景细节的连贯性，大幅降低“跳帧”和“鬼影”现象。
视觉质感升级：在影像清晰度、色彩还原和光影层次上引入新的后处理优化，单张H100上生成5秒1080p视频耗时仍保持在约38秒，但输出画质更接近电影级质感，用户盲测偏好度进一步提升。

阿里巴巴发布视频生成模型 HappyHorse 1.1：更强动态表现力、更高生成一致性、更优视觉质感

原生音视频联合生成：七大语言唇形同步，词错误率再创新低

HappyHorse的核心技术亮点在于“原生音视频联合生成”，不同于市面常见的分步拼接方案，它将文本、视频、音频三种模态的token统一序列建模，从训练阶段就实现声画同步。1.1版本进一步优化了多语言唇形同步的精准度，在原有支持英语、普通话、粤语等七种语言的基础上，词错误率（WER）降至同类开源模型最低水平，为数字人直播、虚拟主播、多语言内容创作提供了可靠基础。

四大主要场景测试中，文本转视频（无音频）和图像转视频（无音频）均超过Seedance 2.0和可灵3.0；文本转视频（有音频）小幅领先；图像转视频（有音频）与Seedance 2.0持平。
实际测试中，单一人物口播场景表现最佳，但多人出镜或复杂运镜时仍需进一步优化——这也是1.1版本努力攻克的方向。

从“神秘模型”到“社区鲶鱼”：开源策略如何重塑视频生成格局？

HappyHorse最初以化名“达芬奇魔法人类”在Github开源，由上海创智学院GAIR实验室与北京Sand.ai（三呆科技）联合开发。如今阿里巴巴正式将其纳入千问生态并开源，意味着开发者可以自由部署、量化、微调。

本地部署门槛：模型推理需H100级别显卡，普通消费级卡暂不可用，但社区已着手量化方案；1.1版本在推理速度上稍作优化，但暂未支持消费级GPU。
场景专注性：当前版本对人像、数字人、虚拟主播等垂直场景有显著优势，但多人物、长叙事、复杂物理交互仍是短板——社区有望通过微调弥补。
商业意义：开源模型效果首次在用户盲测中正面比肩闭源阵营，打破“开源不可交付”的固有认知，为依赖成品供应的创作用户提供了成本更优、隐私更强的选择。

“快乐马”提速：阿里云百炼平台内部上线，一周后全球开放

据最新消息，HappyHorse 1.1已在阿里云百炼平台内部上架，预计一周后正式对外发布API接口。用户届时可通过网页端直接体验或调用API，无需本地部署即可享受高质量视频生成能力。这一举措背靠阿里云强大的算力基础设施，有望降低开发者进入门槛，加速视频内容创作领域的AI普及。

阿里巴巴发布视频生成模型 HappyHorse 1.1：更强动态表现力、更高生成一致性、更优视觉质感

盲测屠榜之后再进化：HappyHorse 1.1如何“更上一层楼”

原生音视频联合生成：七大语言唇形同步，词错误率再创新低

从“神秘模型”到“社区鲶鱼”：开源策略如何重塑视频生成格局？

“快乐马”提速：阿里云百炼平台内部上线，一周后全球开放

链接失效反馈