美团开源 LongCat-Video-Avatar 1.5：数字人视频从“彩排”走向“真舞台”，生成 10 秒视频仅需 1 分钟

2 个月前

AI资讯

48 阅读

视频生成数字人美团 AI开源

统一架构：一个模型包揽文、图、视频三种生成模式

LongCat-Video-Avatar 1.5最大的亮点在于其“全能选手”定位。它采用统一的底层架构，原生支持三大核心任务：

文生视频（Text-to-Video）：仅需一句话即可驱动数字人演绎完整剧情。
图生视频（Image-to-Video）：上传一张静态人像，模型能自动生成连贯动作与表情。
视频续写（Video Continuation）：支持从任意片段开始无缝延长，最长可输出5分钟级别视频。

这一架构彻底告别了以往不同任务需要不同模型拼接的“彩排”式繁琐流程，让创作者在一个框架内完成从创意到成片的全流程。

长视频稳定性突破：告别“五秒崩坏”，画面色彩全程一致

传统视频生成模型在生成长时序内容时，常出现画面闪烁、色彩漂移、主体形变等“崩坏”问题。LongCat-Video通过时空注意力机制的全面升级，实现了两大关键能力：

长时稳定性：原生支持5分钟连续生成，每一帧的人物姿态、背景结构均能保持逻辑连贯，画面不会突然“跳戏”。
色彩一致性：从开场到结尾，场景光照、肤色、服装色调保持统一，避免了因帧间色差导致的“穿帮”感。

这意味着数字人视频不再止于几秒钟的短片段，而是能够胜任短视频、直播段、教学演示等长内容场景。

身份一致性+情感表达：让虚拟人“不说话时”也自然

数字人最怕“僵尸脸”。LongCat-Video-Avatar 1.5在动作拟真度和身份一致性上做了专项优化：

身份锁定：无论视频如何延展或切换场景，生成的人物面部特征、身材比例始终保持一致，不会出现“换脸”或“变形”。
情感微表情：模型能够捕捉并生成丰富的微表情——如嘴角微微上扬、眼神的专注或游离、甚至呼吸时肩膀的起伏。即使是数字人沉默静立的片段，也呈现出“有呼吸感”的自然状态，彻底解决了以往数字人“一静就假”的痛点。

极致效率：10秒高质量视频只需1分钟生成

在推理速度上，LongCat-Video-Avatar 1.5实现了质的飞跃。得益于模型轻量化设计和高效的并行计算调度，生成一段10秒的高质量数字人视频，仅需约1分钟的计算时间。这一速度让实时交互式创作成为可能，创作者可以快速迭代剧本，无需等待数小时。

同时，136亿参数的模型量级保证了生成细节的丰富性，实现了“速度”与“质量”的平衡。

开源生态接力：从InfiniteTalk到LongCat-Video-Avatar的完整链路

此次开源并非孤立事件。早在今年8月，美团就开源了语音驱动数字人工具InfiniteTalk，凭借无限长度生成、精准唇形与姿态同步能力迅速成为行业主流工具。LongCat-Video-Avatar 1.5的发布，相当于在InfiniteTalk的语音驱动基础上，补全了视觉生成与多模态控制的能力，形成了“语音—动作—视觉”三位一体的完整技术栈。

目前，该项目已在GitHub上开放模型权重与推理代码，支持开发者直接部署或二次开发。无论是用于虚拟主播、在线教育、客服数字人，还是短视频内容创作，这一开源方案都大幅降低了数字人视频的制作门槛，让数字人从“彩排式演示”正式走上“真舞台”商用。