美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
背景:多模态建模的长期困境
在传统多模态模型中,文本通常以离散Token处理,而图像和音频则被编码为连续向量空间。这种处理方式虽然有效,但也带来了模态间建模方式的割裂,限制了模型的统一性和扩展性。许多研究者认为,图像等视觉模态若被离散化,会导致细节丢失,尤其在OCR、复杂图表理解等任务中表现较差。
美团此次推出的LongCat-Next,正是为了解决这一难题。其核心架构DiNA(Discrete Native Autoregressive)尝试将图像、语音、文本统一为同一种表示——离散Token,实现真正意义上的“原生多模态”建模。
技术核心:DiNA 架构与离散Token统一
DiNA的核心理念是将所有模态信息转化为离散Token,从而让模型统一地预测下一个Token,无论输入是图像、语音还是文本。
- 统一表示:通过离散分词器(如dNaViT)将图像、语音等非结构化数据编码为离散的Token ID。
- 自回归建模:采用标准的自回归生成范式,使模型在多模态输入下依然保持一致性。
- MoE结构支持:使用LongCat-Flash-Lite MoE(68.5B总参数,3B激活参数)作为基座模型,实现高效的训练与推理。
这种设计不仅简化了多模态处理流程,也提高了模型的可扩展性与训练稳定性。
性能表现:多模态能力全面超越
在多个基准测试中,LongCat-Next展示了强大的跨模态理解与生成能力,甚至超越了单模专用模型:
- 视觉理解与生成:在OmniDocBench上表现优于Qwen3-Omni与Qwen3-VL,尤其在处理学术论文、财报、行政表格等复杂文档时优势明显。
- 图像生成:LongText-Bench得分为93.15(英文),显示出极强的生成稳定性。
- 数学理解:MathVista得分为83.1,表明模型在图像中理解数学内容的能力已达到领先水平。
- 文本任务:MMLU-Pro(77.02)与C-Eval(86.80)均领先,证明其语言能力未受多模态训练影响。
- 语音处理:TTS任务中,SeedTTS的中文和英文WER分别为1.90和1.89;在音频理解任务如MMAU和TUT2017上也取得先进成绩。

此外,模型还支持低延迟并行文本语音生成,以及语音克隆功能,极大提升了语音交互的自然度和个性化能力。
架构创新:MoE专家路由与模态专精
美团在DiNA架构中引入MoE(Mixture of Experts)机制,使得模型在训练过程中逐步形成了模态专精化。
- 训练过程中激活专家数增加:表明模型在处理多模态输入时,调动了更多专业能力。
- 专家路由机制优化:有效分配模型资源,使不同模态由最适合的专家处理,提升整体性能。
这种机制不仅让模型具备更强的表达能力,也使其在部署时更加灵活、高效,适应不同模态任务的需求。
行业影响:挑战传统认知,推动统一AI范式
LongCat-Next的发布,直接挑战了多模态领域长期以来的认知:即视觉信号无法有效离散化而不丢失细节。美团的实验证明,离散Token不仅可以保持高质量理解,还能在生成任务上表现更优。
这一进展将推动AI行业朝向:
- 统一建模方向:未来大模型或将全面采用离散Token方式处理多模态。
- 更高效的部署:由于模型结构统一,训练和推理的资源调度更简化。
- 更自然的交互体验:语音克隆与低延迟生成让AI与用户之间的互动更流畅、更个性化。
开源与生态:共建多模态AI新未来
美团已将LongCat-Next模型及其离散分词器dNaViT开源,鼓励开发者基于其架构构建更广泛的应用:
- GitHub开源地址:https://github.com/meituan-longcat/LongCat-Next
- 开源内容包括:模型权重、训练脚本、推理工具、离散分词器等。
此举有望激发更多基于离散Token的多模态研究,推动AI在真实世界中的落地应用。
总结
美团通过DiNA架构与LongCat-Next模型,将多模态信息统一为离散Token,突破传统处理方式的限制。其在多项任务中的出色表现证明,这种统一建模方式不仅可行,而且在性能和效率上具有明显优势。未来,这种原生多模态思路或将成为AI大模型的主流发展方向。