美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

1 个月前

AI资讯

27 阅读

美团 [多模态建模离散Token AI技术]

在传统多模态模型中，文本通常以离散Token处理，而图像和音频则被编码为连续向量空间。这种处理方式虽然有效，但也带来了模态间建模方式的割裂，限制了模型的统一性和扩展性。许多研究者认为，图像等视觉模态若被离散化，会导致细节丢失，尤其在OCR、复杂图表理解等任务中表现较差。

美团此次推出的LongCat-Next，正是为了解决这一难题。其核心架构DiNA（Discrete Native Autoregressive）尝试将图像、语音、文本统一为同一种表示——离散Token，实现真正意义上的“原生多模态”建模。

DiNA的核心理念是将所有模态信息转化为离散Token，从而让模型统一地预测下一个Token，无论输入是图像、语音还是文本。

这种设计不仅简化了多模态处理流程，也提高了模型的可扩展性与训练稳定性。

在多个基准测试中，LongCat-Next展示了强大的跨模态理解与生成能力，甚至超越了单模专用模型：

美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

此外，模型还支持低延迟并行文本语音生成，以及语音克隆功能，极大提升了语音交互的自然度和个性化能力。

美团在DiNA架构中引入MoE（Mixture of Experts）机制，使得模型在训练过程中逐步形成了模态专精化。

这种机制不仅让模型具备更强的表达能力，也使其在部署时更加灵活、高效，适应不同模态任务的需求。

LongCat-Next的发布，直接挑战了多模态领域长期以来的认知：即视觉信号无法有效离散化而不丢失细节。美团的实验证明，离散Token不仅可以保持高质量理解，还能在生成任务上表现更优。

这一进展将推动AI行业朝向：

美团已将LongCat-Next模型及其离散分词器dNaViT开源，鼓励开发者基于其架构构建更广泛的应用：

此举有望激发更多基于离散Token的多模态研究，推动AI在真实世界中的落地应用。

美团通过DiNA架构与LongCat-Next模型，将多模态信息统一为离散Token，突破传统处理方式的限制。其在多项任务中的出色表现证明，这种统一建模方式不仅可行，而且在性能和效率上具有明显优势。未来，这种原生多模态思路或将成为AI大模型的主流发展方向。