那个做出可灵的人,回阿里又造了一匹黑马

背景回顾

阿里巴巴近年来在人工智能领域持续发力,尤其在大模型方向上表现突出。其中,张迪作为快手前副总裁和Kling AI的技术负责人,曾在视频生成和多模态模型方面积累了丰富的经验。他的加入为阿里的技术创新注入了强大动力。

在这一背景下,阿里发布了多款重磅模型,包括4月7日亮相的Wan2.7-Video,以及随后突然冲上Artificial Analysis Video Arena榜单的HappyHorse 1.0。这两项成果均出自阿里旗下未来生活实验室团队,而张迪正是这一项目的领导者。

  • 张迪的技术背景:曾在快手推动Kling AI发展,擅长视频生成与多模态模型。
  • 阿里的战略布局:将视频与多模态视为能力制高点,而非边缘功能。
  • 近期密集发布:Wan2.7-Video与HappyHorse 1.0的相继发布,展现阿里在AI大模型上的强劲实力。

HappyHorse 1.0的亮点

HappyHorse 1.0的发布可谓“突然”,但却迅速吸引了大量关注。它不仅在视频生成能力上展现了高水准,更在时序一致性、物理运动、镜头调度等方面表现出色。

  • 榜单空降表现:在Artificial Analysis Video Arena榜单上,HappyHorse 1.0一跃成为焦点。
  • 核心团队支持:由未来生活实验室打造,张迪直接领导,体现了阿里对项目重视程度。
  • 技术能力突破:在复杂动作、音画同步、长视频生成等维度展现出全面能力。

Wan2.7-Video的协同效应

紧随HappyHorse 1.0之前发布的Wan2.7-Video同样值得关注。这款模型涵盖了视频生成、编辑与理解等多个维度,标志着阿里正在构建一套完整的视频生态链。

  • 功能集成性强:集成了长视频生成、复杂动作控制、音画同步与视频编辑。
  • 技术挑战高:对时序一致性、物理运动、镜头调度与推理效率提出了更高要求。
  • 战略意义重大:不仅是一个视频模型,更是阿里多模态技术的集中体现。

视频技术背后的深层布局

视频只是阿里AI战略的入口。在HappyHorse 1.0与Wan2.7-Video背后,是阿里对于视频理解多模态Agent新型交互方式,甚至世界模型叙事的全面布局。

阿里显然希望借助这些模型,打造一个从内容生成到智能交互的完整生态体系。

  • 视频理解:提升对视频内容的深层解析能力,支持更智能的内容推荐与分析。
  • 多模态Agent:构建能够融合文本、图像、声音等多维度信息的智能体。
  • 新交互方式:探索基于视频生成与理解的全新用户交互形态。
  • 世界模型叙事:更远期的目标,可能涉及虚拟世界构建与智能叙事。

行业影响与未来展望

阿里集中发布Wan2.7-Video和HappyHorse 1.0,不仅提升了其在视频生成与多模态领域的行业地位,也对整个AI生态带来了深远影响。

  • 加速技术竞争:推动更多企业投入视频与多模态技术的研发。
  • 推动应用场景落地:从内容创作到虚拟人交互,再到影视制作,应用场景更加丰富。
  • 张迪的回归意义:他作为技术领军人物,再次证明其在AI大模型领域的前瞻能力。

未来,阿里或将通过这些模型进一步打通文娱、电商、社交等多个业务线,形成以视频为核心的AI服务矩阵。