废片也能变大片，北大开源首个「美学照片重构」模型

1 个月前

AI资讯

18 阅读

北京大学][AI图像处理美学照片重构构图优化

别再只调色了，AI现在能直接改构图

现有图像美化工具如Photoshop、美图秀秀等，主要擅长调整曝光、色彩、磨皮美白等表层修饰。但一张照片不好看，往往源于拍摄阶段留下的“结构性缺陷”：构图偏移、视角失衡、人物姿态僵硬。这些缺陷无法通过后期调色或美容来修正。北京大学彭宇新教授团队将这一挑战定义为美学照片重构——在保持人物身份和场景内容一致的前提下，从画面结构层面提升照片美感，相关论文已被ICML 2026接收，代码已开源。

废片也能变大片，北大开源首个「美学照片重构」模型

九千对教学视频样本，北大自建首个美学重构数据集

高质量美学语料极度稀缺，现有数据缺乏“同一人物、同一场景、由差到优”的成对照片。研究团队从互联网拍照教学视频中挖掘美学语料，提出VCMP挖掘方法，自动完成视频筛选、帧对齐、照片去干扰、人物去重等步骤，构建了首个美学照片重构数据集与评测基准AesRecon。该数据集包含9071对严格对齐的人像照片样本，记录了从普通原片到出彩成片的真实优化过程，覆盖构图、视角、姿态等关键调整。

两阶段敲定优化方案：先策划再动手

基于AesRecon，团队提出AesFormer模型，采用“美学规划+美学编辑”两阶段路线：

美学规划（AesThinker）：通过冷启动监督微调（SFT）和美学引导的组相对策略优化（GRPO），训练多模态大模型分析照片问题，沿构图、视角、姿态、光线、色彩、景深、表情七个维度生成可执行的美学优化方案。
美学编辑（AesEditor）：以美学优化方案为条件，通过流匹配训练图像编辑模型，将方案稳定转化为像素级编辑，完成照片重构。基座模型分别为Qwen3-VL-8B和Qwen-Image-Edit-2511。

推理表现媲美闭源商业模型，简单组合策略行不通

在AesRecon评测基准上，AesFormer在各项指标上均优于开源模型，并与Google闭源商业模型Nano Banana Pro表现相当，多数指标更优。研究还发现，简单组合现有通用Thinker与Editor（如GPT-4o生成方案+其他编辑模型）无法稳定提升性能，原因在于通用模型缺乏美学理解能力，且现有编辑模型难以执行结构性编辑。AesFormer通过解耦规划与编辑，实现了可靠的美学照片重构。

废片也能变大片，北大开源首个「美学照片重构」模型

别再只调色了，AI现在能直接改构图

九千对教学视频样本，北大自建首个美学重构数据集

两阶段敲定优化方案：先策划再动手

推理表现媲美闭源商业模型，简单组合策略行不通

链接失效反馈