废片也能变大片,北大开源首个「美学照片重构」模型

别再只调色了,AI现在能直接改构图

现有图像美化工具如Photoshop、美图秀秀等,主要擅长调整曝光、色彩、磨皮美白等表层修饰。但一张照片不好看,往往源于拍摄阶段留下的“结构性缺陷”:构图偏移、视角失衡、人物姿态僵硬。这些缺陷无法通过后期调色或美容来修正。北京大学彭宇新教授团队将这一挑战定义为美学照片重构——在保持人物身份和场景内容一致的前提下,从画面结构层面提升照片美感,相关论文已被ICML 2026接收,代码已开源。

废片也能变大片,北大开源首个「美学照片重构」模型

九千对教学视频样本,北大自建首个美学重构数据集

高质量美学语料极度稀缺,现有数据缺乏“同一人物、同一场景、由差到优”的成对照片。研究团队从互联网拍照教学视频中挖掘美学语料,提出VCMP挖掘方法,自动完成视频筛选、帧对齐、照片去干扰、人物去重等步骤,构建了首个美学照片重构数据集与评测基准AesRecon。该数据集包含9071对严格对齐的人像照片样本,记录了从普通原片到出彩成片的真实优化过程,覆盖构图、视角、姿态等关键调整。

两阶段敲定优化方案:先策划再动手

基于AesRecon,团队提出AesFormer模型,采用“美学规划+美学编辑”两阶段路线:

  • 美学规划(AesThinker):通过冷启动监督微调(SFT)和美学引导的组相对策略优化(GRPO),训练多模态大模型分析照片问题,沿构图、视角、姿态、光线、色彩、景深、表情七个维度生成可执行的美学优化方案。
  • 美学编辑(AesEditor):以美学优化方案为条件,通过流匹配训练图像编辑模型,将方案稳定转化为像素级编辑,完成照片重构。基座模型分别为Qwen3-VL-8B和Qwen-Image-Edit-2511。

推理表现媲美闭源商业模型,简单组合策略行不通

在AesRecon评测基准上,AesFormer在各项指标上均优于开源模型,并与Google闭源商业模型Nano Banana Pro表现相当,多数指标更优。研究还发现,简单组合现有通用Thinker与Editor(如GPT-4o生成方案+其他编辑模型)无法稳定提升性能,原因在于通用模型缺乏美学理解能力,且现有编辑模型难以执行结构性编辑。AesFormer通过解耦规划与编辑,实现了可靠的美学照片重构。