阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级
神秘黑马再进化:从登顶榜单到五大维度全面跃升
今年4月,一款名为“HappyHorse”的匿名视频生成模型横空出世,以1333 ELo分迅速登顶Artificial Analysis视频竞技场排行榜,超越同期诸多热门模型,被外界称为“黑马”。如今,这匹“黑马”正式揭开面纱。6月22日,阿里巴巴发布其升级版本HappyHorse 1.1。相较于1.0版本,新模型在动态表现力、主体一致性、指令遵循能力、视觉质感以及音频能力五个关键维度实现系统性升级,标志着阿里在视频生成赛道的技术积累进入新阶段。
根据此前披露的1.0版本数据,该模型已具备150亿参数的原生多模态架构,支持7种语言的唇形同步,而1.1版本的全面升级,则进一步巩固了其在视频生成领域的领先地位。
电影级视觉质感与流畅运镜,重塑画面表现力
HappyHorse 1.1在视觉质感上再度突破。无论是人物肤质纹理,还是烟雾水雾等细微环境元素,都能呈现出电影级别的细腻质感。模型尤其擅长运用大光圈、浅景深与强氛围感的中近景镜头,通过拉近、拉远、景深变换等多种运镜方式,极大提升了画面的叙事张力与艺术表现力。

此外,1.1版本进一步优化了光影效果,无论是自然光下的柔和过渡,还是复杂光源的反射渲染,都能精准还原。从水墨工笔到折纸、粘土定格动画等多元艺术风格,模型均可轻松驾驭,为内容创作者提供了更大的创作自由度。
动态表现与主体一致性:让视频“动得更真,稳得住”
在动态表现力维度,HappyHorse 1.1实现了质的跃升。新模型能够更流畅地表现人物与物体的连贯动作,包括复杂的肢体运动、表情变化及环境交互,大幅减少了以往视频模型中常见的画面抖动或动作僵硬问题。
同时,主体一致性能力显著增强。模型在多镜头、多场景的叙事中,能够保持人物形象、服饰、场景等核心元素的高度统一,避免了同一角色在不同帧或镜头中出现风格断裂的情况。这对于短剧、广告等需要持续人物输出的场景至关重要,极大提升了视频的观赏性与商业可用性。
智能指令遵循与精准控制:从文字到画面的“精确翻译”
HappyHorse 1.1在指令遵循能力上进行了深度优化。用户通过自然语言输入的复杂指令,如特定动作、场景切换、氛围渲染等,模型能够更精准地转化为对应的视觉输出。这意味着创作者可以更高效地实现创意表达,减少反复调整的试错成本。
结合此前1.0版本已支持的多图参考生成与15秒多镜头叙事能力,1.1版本进一步强化了对用户意图的理解与还原。无论是“拉近镜头展现角色表情”还是“生成雨滴敲打窗棂的环境音效”,模型都能以更低的词错误率准确执行,真正实现了从文字到画面的智能“翻译”。
AI音频与视频的无缝协同:原生音画联合生成再升级
作为全球首批原生支持音视频联合生成的开源大模型,HappyHorse 1.1在音频能力上再次进化。新模型优化了音画同步机制,无论是充满张力的台词交锋,还是环境音效(如雨声、风声、脚步声),都能与画面精准匹配,极大提升了视频的沉浸感与真实度。
值得一提的是,模型原生支持英语、普通话、粤语、日语、韩语、德语、法语七种语言的唇形同步,且词错误率在同级开源模型中最低。这一能力在短剧、社交创意及广告视频制作中具有巨大潜力,能够直接生成带有多语种配音的高质量视频内容,为全球创作者降低了本地化门槛。