阿里发布视频生成模型HappyHorse 1.1：五大维度全面升级

1 天前

AI资讯

3 阅读

视频生成阿里 AI模型 HappyHorse

神秘黑马再进化：从登顶榜单到五大维度全面跃升

今年4月，一款名为“HappyHorse”的匿名视频生成模型横空出世，以1333 ELo分迅速登顶Artificial Analysis视频竞技场排行榜，超越同期诸多热门模型，被外界称为“黑马”。如今，这匹“黑马”正式揭开面纱。6月22日，阿里巴巴发布其升级版本HappyHorse 1.1。相较于1.0版本，新模型在动态表现力、主体一致性、指令遵循能力、视觉质感以及音频能力五个关键维度实现系统性升级，标志着阿里在视频生成赛道的技术积累进入新阶段。

根据此前披露的1.0版本数据，该模型已具备150亿参数的原生多模态架构，支持7种语言的唇形同步，而1.1版本的全面升级，则进一步巩固了其在视频生成领域的领先地位。

电影级视觉质感与流畅运镜，重塑画面表现力

HappyHorse 1.1在视觉质感上再度突破。无论是人物肤质纹理，还是烟雾水雾等细微环境元素，都能呈现出电影级别的细腻质感。模型尤其擅长运用大光圈、浅景深与强氛围感的中近景镜头，通过拉近、拉远、景深变换等多种运镜方式，极大提升了画面的叙事张力与艺术表现力。

阿里发布视频生成模型HappyHorse 1.1：五大维度全面升级

此外，1.1版本进一步优化了光影效果，无论是自然光下的柔和过渡，还是复杂光源的反射渲染，都能精准还原。从水墨工笔到折纸、粘土定格动画等多元艺术风格，模型均可轻松驾驭，为内容创作者提供了更大的创作自由度。

动态表现与主体一致性：让视频“动得更真，稳得住”

在动态表现力维度，HappyHorse 1.1实现了质的跃升。新模型能够更流畅地表现人物与物体的连贯动作，包括复杂的肢体运动、表情变化及环境交互，大幅减少了以往视频模型中常见的画面抖动或动作僵硬问题。

同时，主体一致性能力显著增强。模型在多镜头、多场景的叙事中，能够保持人物形象、服饰、场景等核心元素的高度统一，避免了同一角色在不同帧或镜头中出现风格断裂的情况。这对于短剧、广告等需要持续人物输出的场景至关重要，极大提升了视频的观赏性与商业可用性。

智能指令遵循与精准控制：从文字到画面的“精确翻译”

HappyHorse 1.1在指令遵循能力上进行了深度优化。用户通过自然语言输入的复杂指令，如特定动作、场景切换、氛围渲染等，模型能够更精准地转化为对应的视觉输出。这意味着创作者可以更高效地实现创意表达，减少反复调整的试错成本。

结合此前1.0版本已支持的多图参考生成与15秒多镜头叙事能力，1.1版本进一步强化了对用户意图的理解与还原。无论是“拉近镜头展现角色表情”还是“生成雨滴敲打窗棂的环境音效”，模型都能以更低的词错误率准确执行，真正实现了从文字到画面的智能“翻译”。

AI音频与视频的无缝协同：原生音画联合生成再升级

作为全球首批原生支持音视频联合生成的开源大模型，HappyHorse 1.1在音频能力上再次进化。新模型优化了音画同步机制，无论是充满张力的台词交锋，还是环境音效（如雨声、风声、脚步声），都能与画面精准匹配，极大提升了视频的沉浸感与真实度。

值得一提的是，模型原生支持英语、普通话、粤语、日语、韩语、德语、法语七种语言的唇形同步，且词错误率在同级开源模型中最低。这一能力在短剧、社交创意及广告视频制作中具有巨大潜力，能够直接生成带有多语种配音的高质量视频内容，为全球创作者降低了本地化门槛。

阿里发布视频生成模型HappyHorse 1.1：五大维度全面升级

神秘黑马再进化：从登顶榜单到五大维度全面跃升

电影级视觉质感与流畅运镜，重塑画面表现力

动态表现与主体一致性：让视频“动得更真，稳得住”

智能指令遵循与精准控制：从文字到画面的“精确翻译”

AI音频与视频的无缝协同：原生音画联合生成再升级

链接失效反馈