美团发布 LongCat-AudioDiT 音频生成模型:说话人相似度指标提升至 0.818,现已开源

背景

近年来,随着大语言模型(LLM)和多模态技术的飞速发展,AI 在语音、图像、文本等领域的融合应用成为研究热点。作为一家持续投入科技创新的企业,美团也积极布局这一领域,并通过其 LongCat 系列模型不断推进 AI 技术的边界。继 LongCat-Flash 系列发布后,美团进一步开源了 LongCat-Flash-Omni,并在此基础上推出了 LongCat-AudioDiT 音频生成模型,标志着其在语音生成和理解方面的重大突破。

LongCat-AudioDiT 技术亮点

LongCat-AudioDiT 是美团开源的音频生成模型,首次将图像、语音与文本统一映射为同源离散 Token,打破了传统以语言为中心的拼凑式架构。

关键技术创新包括:

  • 端到端生成架构:采用“下一个Token预测”(Next Token Prediction, NTP)机制,实现音频的高质量生成。
  • 语音与文本对齐训练:通过音频编码器对齐训练,使模型能直接处理连续音频特征,提升语音保真度。
  • 高相似度指标:说话人相似度指标(Speaker Similarity Score)提升至 0.818,显著增强语音生成的自然度与身份一致性。

此外,该模型依托 LongCat-Flash 系列的高效架构(如 ScMoE 架构与零计算专家机制),在保证生成质量的同时,大幅优化了推理效率,适用于低延迟场景下的语音生成任务。

LongCat-Flash-Omni 作为基础模型

LongCat-AudioDiT 的研发基于美团最新发布的 LongCat-Flash-Omni,该模型参数总量高达 5600 亿,激活参数约为 270 亿,是目前开源领域中参数规模最大、性能最优的全模态模型之一。

其主要特性包括:

  • 全模态覆盖:整合图像、音频、视频、文本等多模态感知与生成能力。
  • 高效推理设计:所有模块均为轻量级组件,支持毫秒级响应,满足实时交互需求。
  • 流式音视频交互:通过“分块式音视频特征交织机制”,实现连续多模态数据的高效处理。
  • 超长上下文支持:上下文窗口扩展至 128K tokens,支持多轮对话与长时序推理。

这些设计为 LongCat-AudioDiT 提供了强大的语音感知与生成基础,使得音频合成质量与说话人相似度指标显著提升。

模型训练策略与多模态协同

LongCat-Flash-Omni 的训练策略为 LongCat-AudioDiT 提供了高质量的多模态协同能力:

阶段式多模融合训练流程:

  1. 语音与文本对齐:优先引入语音数据,与文本结构对齐,整合副语言信息。
  2. 图像与语言融合:在语言基础上加入图像描述数据,增强视觉理解。
  3. 视频处理能力构建:通过动态帧采样与分层令牌聚合,训练模型进行时空推理。
  4. 上下文窗口扩展:从 8K 扩展至 128K tokens,支持长时记忆与复杂对话。
  5. 音频编码优化:进行音频编码器对齐训练,减少信息丢失,提升音频生成质量。

这种渐进式融合策略确保了模型在不损失任一模态性能的前提下,实现多模态协同,为 LongCat-AudioDiT 提供了坚实的训练基础。

行业影响与未来展望

美团此次开源 LongCat-AudioDiT,标志着其在语音生成与多模态技术融合方面迈出了重要一步。该模型的发布不仅为开发者提供了高质量、高相似度的语音生成工具,也推动了开源社区在语音合成、个性化语音助手、AI客服等应用场景的发展。

目前 LongCat 官方 App 已上线,支持语音通话功能,未来还将推出视频通话等更多交互形式。开发者可通过 GitHub 获取 LongCat-Flash-Omni 及 LongCat-AudioDiT 的开源代码与模型权重,进一步拓展其在实际业务中的应用。

尽管 LongCat-AudioDiT 在说话人相似度、语音流畅性等维度表现优异,但在类人性、准确性等方面仍有提升空间。美团 LongCat 团队表示将持续优化模型架构与训练方法,推动语音生成与多模态交互的边界不断扩展。