X平台疯传！这个国产开源模型，把信息图生成整明白了

1 个月前

AI资讯

59 阅读

文生图图像编辑开源模型中文文字渲染

美团开源6B参数“编辑高手”，剑指中文文字渲染

12月8日，美团正式发布并开源了图像生成模型LongCat-Image。这是一款参数规模为6B的模型，在图像编辑能力上达到了开源SOTA水准，重点聚焦文生图与单图编辑两大场景。官方评测显示，其核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上。模型采用了文生图与图像编辑同源的统一架构，并通过渐进式学习策略，在参数量不占优的情况下协同提升指令遵循、生图质量与文字渲染三项指标。在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中，LongCat-Image均取得开源最优成绩。针对中文渲染，它利用覆盖8105个规范汉字的合成字形数据进行预训练，并在SFT与RL阶段分别引入真实文本图片和OCR、美学双奖励模型，最终在ChineseWord评测中拿下90.7分，领先于其他开源模型。

《疯狂动物城2》实测：连续改图稳如磐石，小字仍乱码

实测环节中，LongCat-Image展示了出色的“连续指令可编辑性”。测试人员以《疯狂动物城2》角色为基准，连续发出像素风、彩色像素重绘、乐高积木风格等重绘指令。模型能够稳定保持角色结构，完成风格与材质的多轮迁移，人物轮廓和构图均未出现明显错误。在生成电影宣传海报时，主标题“疯狂动物城2”和英文名“Zootopia”清晰可辨，对参考图的继承能力稳定。然而，在小字区域（如演员表、细节文字）仍存在乱码和英文混杂问题，说明复杂排版场景下中文文字渲染依然不稳定。在同一角色的人物档案式海报测试中，模型能够正确呈现大部分信息，但多行小字的准确率有待提升。

X平台疯传！这个国产开源模型，把信息图生成整明白了 | 附实测

从玩偶绒毛到现实光影，产品渲染惊艳

在产品级渲染测试中，LongCat-Image表现亮眼。以朱迪警官玩偶为例，模型在影棚光、台灯暖光、自然光客厅、床品光照等多个场景下都能准确还原质感。短绒毛细节、眼睛高光反射、沙发布料与玩偶绒毛的材质对比被细腻刻画，整体效果接近商业产品摄影。这一优势得益于模型在真实感方面的优化：通过对抗训练和严格数据筛选避开AIGC常见的“塑料感”，并在RL阶段引入AIGC检测器反向引导模型学习物理纹理与光影变化。在人类主观评分（MOS）维度上，LongCat-Image的文本对齐、视觉真实度与美学质量已接近Seedream4.0等商业模型水平，并列对比评估胜率也高于NanoBanana和Qwen-Image-Edit。

游戏界面审美掉队，中文小字体仍是难点

尽管在多项任务中表现出色，LongCat-Image在特定场景下暴露了短板。在游戏界面生成测试中，无论是卡牌游戏、射击游戏还是MOBA类第一视角界面，模型生成的UI设计整体偏向十多年前的审美风格，与当下主流游戏产品存在明显代差。此外，复杂排版场景下的中文小字渲染仍是核心痛点。分析认为，这些不足可能与模型不具备联网搜索能力有关，导致其无法获取最新的设计趋势和字体资源。这也说明，在追求“真正进入设计、产品、品牌等具体生产流程”的实用能力上，LongCat-Image仍需继续迭代。

体验入口全开放，Hugging Face与GitHub一键下载

目前，LongCat-Image已全面开源并提供多种使用方式。移动端用户可通过LongCat APP体验文生图与图生图功能；网页端则可通过longcat.ai直接访问。模型权重、代码及评测信息已在Hugging Face和GitHub同步发布：Hugging Face地址为https://huggingface.co/meituan-longcat/LongCat-Image，GitHub地址为https://github.com/meituan-longcat/LongCat-Image。感兴趣的开发者和设计者可以免费下载使用，亲自测试其在编辑可控性和中文渲染上的实际表现。