全员本科生!何恺明组新作:文生图,258M参数就够了
三位本科生领衔,挑战文生图新范式
何恺明实验室再次将聚光灯投向年轻力量。由三位本科生主导的最新研究成果——MM-JiT(Masked-Matching for Joint Image-Text Modeling),以区区2.58亿参数,在文生图(Text-to-Image)领域掀起波澜。这不仅是一次技术参数的“瘦身”,更昭示着:无需庞大模型和天量算力,同样能生成惊艳图像。该工作是何恺明组此前“Back to Basics”理念在文本到图像生成方向的延续,核心目标直指归一化流(Normalizing Flow)在生成模型中的固有局限。
258M参数如何做到“小而强”?——揭秘MM-JiT核心设计
传统文生图模型往往依赖数十亿参数的扩散或自回归架构,训推成本高昂。MM-JiT另辟蹊径,引入掩码匹配(Masked Matching) 机制,结合流匹配(Flow Matching)框架,实现参数效率的飞跃。其关键设计包括:
- 紧凑潜在空间:通过稀疏压缩变分自编码器(VAE)将图像压缩至紧凑潜在表示,让后续流模型专注于低维流形上的学习。
- 流匹配优化:不同于传统扩散模型从噪声逐步去噪,MM-JiT在连续时间流上直接学习从源分布到目标分布的映射,无需反转、无需优化,模型无关且计算轻量。
- 联合图文建模:采用跨注意力机制将文本条件与图像潜在特征对齐,使得语义信息精准引导生成过程。
这些设计共同作用,让模型在仅有258M参数的条件下,仍能捕捉复杂视觉概念。
流匹配新突破:从公式到图像的优雅解码
MM-JiT对归一化流的改进是核心亮点。传统归一化流受限于生物物理约束,难以在计算可行性和表达力之间取得平衡。该团队提出的掩码流匹配方法,直接定义源分布与目标分布之间的最优传输路径,并通过可学习的向量场拟合该路径。推理时,只需沿流线采样,即可一步生成图像,速度远快于迭代式扩散模型。更关键的是,该方法无需预训练tokenizer、无需额外损失函数,仅凭Transformer的简单自回归监督即可端到端训练,极大降低了工程复杂度。
效率与质量兼得:MM-JiT实测表现惊艳
在标准文生图基准测试中,MM-JiT以258M参数取得了与参数量大数倍的主流模型相媲美的FID和CLIP得分。实际生成样例显示,模型在复杂场景构图、概念组合(如“戴帽子的狗在划船”)以及细节纹理上均表现稳定。参数量缩减带来的直接收益是推理速度提升和显存占用降低——消费者级GPU即可流畅运行,让文生图技术从云端走向个人设备成为可能。何恺明组通过该工作再次证明:在生成模型领域,“轻量化+巧设计”往往比“堆参数”更具持续发展力。