美团开源 LongCat-Video-Avatar 1.5:数字人视频从“彩排”走向“真舞台”,生成 10 秒视频仅需 1 分钟
统一架构:一个模型包揽文、图、视频三种生成模式
LongCat-Video-Avatar 1.5最大的亮点在于其“全能选手”定位。它采用统一的底层架构,原生支持三大核心任务:
- 文生视频(Text-to-Video):仅需一句话即可驱动数字人演绎完整剧情。
- 图生视频(Image-to-Video):上传一张静态人像,模型能自动生成连贯动作与表情。
- 视频续写(Video Continuation):支持从任意片段开始无缝延长,最长可输出5分钟级别视频。
这一架构彻底告别了以往不同任务需要不同模型拼接的“彩排”式繁琐流程,让创作者在一个框架内完成从创意到成片的全流程。
长视频稳定性突破:告别“五秒崩坏”,画面色彩全程一致
传统视频生成模型在生成长时序内容时,常出现画面闪烁、色彩漂移、主体形变等“崩坏”问题。LongCat-Video通过时空注意力机制的全面升级,实现了两大关键能力:
- 长时稳定性:原生支持5分钟连续生成,每一帧的人物姿态、背景结构均能保持逻辑连贯,画面不会突然“跳戏”。
- 色彩一致性:从开场到结尾,场景光照、肤色、服装色调保持统一,避免了因帧间色差导致的“穿帮”感。
这意味着数字人视频不再止于几秒钟的短片段,而是能够胜任短视频、直播段、教学演示等长内容场景。
身份一致性+情感表达:让虚拟人“不说话时”也自然
数字人最怕“僵尸脸”。LongCat-Video-Avatar 1.5在动作拟真度和身份一致性上做了专项优化:
- 身份锁定:无论视频如何延展或切换场景,生成的人物面部特征、身材比例始终保持一致,不会出现“换脸”或“变形”。
- 情感微表情:模型能够捕捉并生成丰富的微表情——如嘴角微微上扬、眼神的专注或游离、甚至呼吸时肩膀的起伏。即使是数字人沉默静立的片段,也呈现出“有呼吸感”的自然状态,彻底解决了以往数字人“一静就假”的痛点。
极致效率:10秒高质量视频只需1分钟生成
在推理速度上,LongCat-Video-Avatar 1.5实现了质的飞跃。得益于模型轻量化设计和高效的并行计算调度,生成一段10秒的高质量数字人视频,仅需约1分钟的计算时间。这一速度让实时交互式创作成为可能,创作者可以快速迭代剧本,无需等待数小时。
同时,136亿参数的模型量级保证了生成细节的丰富性,实现了“速度”与“质量”的平衡。
开源生态接力:从InfiniteTalk到LongCat-Video-Avatar的完整链路
此次开源并非孤立事件。早在今年8月,美团就开源了语音驱动数字人工具InfiniteTalk,凭借无限长度生成、精准唇形与姿态同步能力迅速成为行业主流工具。LongCat-Video-Avatar 1.5的发布,相当于在InfiniteTalk的语音驱动基础上,补全了视觉生成与多模态控制的能力,形成了“语音—动作—视觉”三位一体的完整技术栈。
目前,该项目已在GitHub上开放模型权重与推理代码,支持开发者直接部署或二次开发。无论是用于虚拟主播、在线教育、客服数字人,还是短视频内容创作,这一开源方案都大幅降低了数字人视频的制作门槛,让数字人从“彩排式演示”正式走上“真舞台”商用。