X平台疯传!这个国产开源模型,把信息图生成整明白了
美团开源6B参数“编辑高手”,剑指中文文字渲染
12月8日,美团正式发布并开源了图像生成模型LongCat-Image。这是一款参数规模为6B的模型,在图像编辑能力上达到了开源SOTA水准,重点聚焦文生图与单图编辑两大场景。官方评测显示,其核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上。模型采用了文生图与图像编辑同源的统一架构,并通过渐进式学习策略,在参数量不占优的情况下协同提升指令遵循、生图质量与文字渲染三项指标。在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中,LongCat-Image均取得开源最优成绩。针对中文渲染,它利用覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT与RL阶段分别引入真实文本图片和OCR、美学双奖励模型,最终在ChineseWord评测中拿下90.7分,领先于其他开源模型。
《疯狂动物城2》实测:连续改图稳如磐石,小字仍乱码
实测环节中,LongCat-Image展示了出色的“连续指令可编辑性”。测试人员以《疯狂动物城2》角色为基准,连续发出像素风、彩色像素重绘、乐高积木风格等重绘指令。模型能够稳定保持角色结构,完成风格与材质的多轮迁移,人物轮廓和构图均未出现明显错误。在生成电影宣传海报时,主标题“疯狂动物城2”和英文名“Zootopia”清晰可辨,对参考图的继承能力稳定。然而,在小字区域(如演员表、细节文字)仍存在乱码和英文混杂问题,说明复杂排版场景下中文文字渲染依然不稳定。在同一角色的人物档案式海报测试中,模型能够正确呈现大部分信息,但多行小字的准确率有待提升。

从玩偶绒毛到现实光影,产品渲染惊艳
在产品级渲染测试中,LongCat-Image表现亮眼。以朱迪警官玩偶为例,模型在影棚光、台灯暖光、自然光客厅、床品光照等多个场景下都能准确还原质感。短绒毛细节、眼睛高光反射、沙发布料与玩偶绒毛的材质对比被细腻刻画,整体效果接近商业产品摄影。这一优势得益于模型在真实感方面的优化:通过对抗训练和严格数据筛选避开AIGC常见的“塑料感”,并在RL阶段引入AIGC检测器反向引导模型学习物理纹理与光影变化。在人类主观评分(MOS)维度上,LongCat-Image的文本对齐、视觉真实度与美学质量已接近Seedream4.0等商业模型水平,并列对比评估胜率也高于NanoBanana和Qwen-Image-Edit。
游戏界面审美掉队,中文小字体仍是难点
尽管在多项任务中表现出色,LongCat-Image在特定场景下暴露了短板。在游戏界面生成测试中,无论是卡牌游戏、射击游戏还是MOBA类第一视角界面,模型生成的UI设计整体偏向十多年前的审美风格,与当下主流游戏产品存在明显代差。此外,复杂排版场景下的中文小字渲染仍是核心痛点。分析认为,这些不足可能与模型不具备联网搜索能力有关,导致其无法获取最新的设计趋势和字体资源。这也说明,在追求“真正进入设计、产品、品牌等具体生产流程”的实用能力上,LongCat-Image仍需继续迭代。
体验入口全开放,Hugging Face与GitHub一键下载
目前,LongCat-Image已全面开源并提供多种使用方式。移动端用户可通过LongCat APP体验文生图与图生图功能;网页端则可通过longcat.ai直接访问。模型权重、代码及评测信息已在Hugging Face和GitHub同步发布:Hugging Face地址为https://huggingface.co/meituan-longcat/LongCat-Image,GitHub地址为https://github.com/meituan-longcat/LongCat-Image。感兴趣的开发者和设计者可以免费下载使用,亲自测试其在编辑可控性和中文渲染上的实际表现。