首页

登录

美团发布 LongCat-AudioDiT 音频生成模型：说话人相似度指标提升至 0.818，现已开源

1 个月前

AI资讯

41 阅读

开源 [美团音频生成模型 LongCat系列]

背景

近年来，随着大语言模型（LLM）和多模态技术的飞速发展，AI 在语音、图像、文本等领域的融合应用成为研究热点。作为一家持续投入科技创新的企业，美团也积极布局这一领域，并通过其 LongCat 系列模型不断推进 AI 技术的边界。继 LongCat-Flash 系列发布后，美团进一步开源了 LongCat-Flash-Omni，并在此基础上推出了 LongCat-AudioDiT 音频生成模型，标志着其在语音生成和理解方面的重大突破。

LongCat-AudioDiT 技术亮点

LongCat-AudioDiT 是美团开源的音频生成模型，首次将图像、语音与文本统一映射为同源离散 Token，打破了传统以语言为中心的拼凑式架构。

关键技术创新包括：

端到端生成架构：采用“下一个Token预测”（Next Token Prediction, NTP）机制，实现音频的高质量生成。
语音与文本对齐训练：通过音频编码器对齐训练，使模型能直接处理连续音频特征，提升语音保真度。
高相似度指标：说话人相似度指标（Speaker Similarity Score）提升至 0.818，显著增强语音生成的自然度与身份一致性。

此外，该模型依托 LongCat-Flash 系列的高效架构（如 ScMoE 架构与零计算专家机制），在保证生成质量的同时，大幅优化了推理效率，适用于低延迟场景下的语音生成任务。

LongCat-Flash-Omni 作为基础模型

LongCat-AudioDiT 的研发基于美团最新发布的 LongCat-Flash-Omni，该模型参数总量高达 5600 亿，激活参数约为 270 亿，是目前开源领域中参数规模最大、性能最优的全模态模型之一。

其主要特性包括：

全模态覆盖：整合图像、音频、视频、文本等多模态感知与生成能力。
高效推理设计：所有模块均为轻量级组件，支持毫秒级响应，满足实时交互需求。
流式音视频交互：通过“分块式音视频特征交织机制”，实现连续多模态数据的高效处理。
超长上下文支持：上下文窗口扩展至 128K tokens，支持多轮对话与长时序推理。

这些设计为 LongCat-AudioDiT 提供了强大的语音感知与生成基础，使得音频合成质量与说话人相似度指标显著提升。

模型训练策略与多模态协同

LongCat-Flash-Omni 的训练策略为 LongCat-AudioDiT 提供了高质量的多模态协同能力：

阶段式多模融合训练流程：

语音与文本对齐：优先引入语音数据，与文本结构对齐，整合副语言信息。
图像与语言融合：在语言基础上加入图像描述数据，增强视觉理解。
视频处理能力构建：通过动态帧采样与分层令牌聚合，训练模型进行时空推理。
上下文窗口扩展：从 8K 扩展至 128K tokens，支持长时记忆与复杂对话。
音频编码优化：进行音频编码器对齐训练，减少信息丢失，提升音频生成质量。

这种渐进式融合策略确保了模型在不损失任一模态性能的前提下，实现多模态协同，为 LongCat-AudioDiT 提供了坚实的训练基础。

行业影响与未来展望

美团此次开源 LongCat-AudioDiT，标志着其在语音生成与多模态技术融合方面迈出了重要一步。该模型的发布不仅为开发者提供了高质量、高相似度的语音生成工具，也推动了开源社区在语音合成、个性化语音助手、AI客服等应用场景的发展。

目前 LongCat 官方 App 已上线，支持语音通话功能，未来还将推出视频通话等更多交互形式。开发者可通过 GitHub 获取 LongCat-Flash-Omni 及 LongCat-AudioDiT 的开源代码与模型权重，进一步拓展其在实际业务中的应用。

尽管 LongCat-AudioDiT 在说话人相似度、语音流畅性等维度表现优异，但在类人性、准确性等方面仍有提升空间。美团 LongCat 团队表示将持续优化模型架构与训练方法，推动语音生成与多模态交互的边界不断扩展。