全员本科生！何恺明组新作：文生图，258M参数就够了

5 天前

AI资讯

41 阅读

文生图小模型何恺明本科生

三位本科生领衔，挑战文生图新范式

何恺明实验室再次将聚光灯投向年轻力量。由三位本科生主导的最新研究成果——MM-JiT（Masked-Matching for Joint Image-Text Modeling），以区区2.58亿参数，在文生图（Text-to-Image）领域掀起波澜。这不仅是一次技术参数的“瘦身”，更昭示着：无需庞大模型和天量算力，同样能生成惊艳图像。该工作是何恺明组此前“Back to Basics”理念在文本到图像生成方向的延续，核心目标直指归一化流（Normalizing Flow）在生成模型中的固有局限。

258M参数如何做到“小而强”？——揭秘MM-JiT核心设计

传统文生图模型往往依赖数十亿参数的扩散或自回归架构，训推成本高昂。MM-JiT另辟蹊径，引入掩码匹配（Masked Matching） 机制，结合流匹配（Flow Matching）框架，实现参数效率的飞跃。其关键设计包括：

紧凑潜在空间：通过稀疏压缩变分自编码器（VAE）将图像压缩至紧凑潜在表示，让后续流模型专注于低维流形上的学习。
流匹配优化：不同于传统扩散模型从噪声逐步去噪，MM-JiT在连续时间流上直接学习从源分布到目标分布的映射，无需反转、无需优化，模型无关且计算轻量。
联合图文建模：采用跨注意力机制将文本条件与图像潜在特征对齐，使得语义信息精准引导生成过程。

这些设计共同作用，让模型在仅有258M参数的条件下，仍能捕捉复杂视觉概念。

流匹配新突破：从公式到图像的优雅解码

MM-JiT对归一化流的改进是核心亮点。传统归一化流受限于生物物理约束，难以在计算可行性和表达力之间取得平衡。该团队提出的掩码流匹配方法，直接定义源分布与目标分布之间的最优传输路径，并通过可学习的向量场拟合该路径。推理时，只需沿流线采样，即可一步生成图像，速度远快于迭代式扩散模型。更关键的是，该方法无需预训练tokenizer、无需额外损失函数，仅凭Transformer的简单自回归监督即可端到端训练，极大降低了工程复杂度。

效率与质量兼得：MM-JiT实测表现惊艳

在标准文生图基准测试中，MM-JiT以258M参数取得了与参数量大数倍的主流模型相媲美的FID和CLIP得分。实际生成样例显示，模型在复杂场景构图、概念组合（如“戴帽子的狗在划船”）以及细节纹理上均表现稳定。参数量缩减带来的直接收益是推理速度提升和显存占用降低——消费者级GPU即可流畅运行，让文生图技术从云端走向个人设备成为可能。何恺明组通过该工作再次证明：在生成模型领域，“轻量化+巧设计”往往比“堆参数”更具持续发展力。

全员本科生！何恺明组新作：文生图，258M参数就够了

三位本科生领衔，挑战文生图新范式

258M参数如何做到“小而强”？——揭秘MM-JiT核心设计

流匹配新突破：从公式到图像的优雅解码

效率与质量兼得：MM-JiT实测表现惊艳

链接失效反馈