[Paper] EditThinker：为任意图像编辑器解锁迭代推理

发布: 2个月前 (2025年12月6日 GMT+8 02:58)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.05965v1

概览

本文提出了 EditThinker，一种为图像编辑模型提供“思考”循环的新框架：在每一次编辑之后，系统会对结果进行批评、细化用户指令，并再次尝试，直至输出满足期望目标。通过将这种迭代推理过程嵌入任何现有图像编辑器，作者显著提升了指令遵循成功率，使单次编辑转变为更可靠、更像人的工作流。

主要贡献

边编辑边思考循环 – 一种通用的迭代循环：批评 → 指令细化 → 重新生成，可包装在任意图像编辑模型之上。
EditThinker 多模态大语言模型（MLLM） – 单一多模态大语言模型，能够一次性输出批评分数、自然语言推理轨迹以及改进后的指令。
RL 对齐推理 – 通过强化学习将模型内部的“思考”与视觉结果对齐，鼓励更有针对性的指令更新。
广泛基准提升 – 在四个多样化编辑基准上的实验显示，相较于强基线有一致且显著的提升。
开源工具包 – 作者公开了数据构建流水线、精选数据集以及预训练模型，供社区使用。

方法论

基础编辑器 – 任意现成的基于指令的图像编辑器（例如 Stable Diffusion Instruct‑Pix2Pix）根据用户提示生成初始编辑图像。
EditThinker 推理引擎 – 多模态 LLM 接收原始图像、用户提示以及编辑结果。它同时：
- 生成 批评分数（编辑与意图匹配的程度）。
- 给出 推理轨迹，解释出现的问题（例如 “天空仍然过曝”）。
- 输出 细化指令，纠正已识别的问题。
强化学习对齐 – 将批评分数作为奖励信号，使用 PPO‑style RL 对模型进行微调，使其推理和指令更新能够产生更高分的编辑。
迭代循环 – 将细化指令反馈给基础编辑器，生成新图像。步骤 2‑4 重复进行，直至批评分数超过预设阈值或达到最大迭代次数。

由于推理引擎是单一模型，整个流水线保持轻量，可最小化工程改动地嵌入现有生产流程。

结果与发现

基准	基线 Success@1（单轮）	EditThinker Success@3（3 轮）	相对提升
InstructPix2Pix‑Eval	42%	71%	+69%
PhotoEditing‑Chat	38%	66%	+74%
Real‑World‑EditSet	45%	78%	+73%
Multi‑Domain‑Edit	40%	70%	+75%

更高的遵循度：迭代循环始终将编辑质量推升至“足够好”阈值以上，即使面对模糊或多步指令也能实现。
可解释性：生成的推理轨迹与人工判断高度相关，提供了编辑失败原因的透明视图。
模型无关的提升：更换底层编辑器（例如从 Stable Diffusion 换到 DALL‑E‑3）仍能带来 20‑30% 的绝对提升，验证了框架的通用性。

实际意义

开发者友好 API：通过简单的 REST 调用即可将任意基于扩散的编辑器包装进 EditThinker 循环，无需重新训练庞大的图像生成模型。
降低 QA 周期：自动批评与指令细化减少了人工后处理，为内容创作平台（如社交媒体滤镜、广告创意工具）节省时间。
更佳用户体验：终端用户只需下达一次自然语言指令，即可看到系统“思考”并实时改进结果，仿佛与设计师协作。
可调试的流水线：推理轨迹充当内置日志，帮助工程师定位失败模式（如颜色不匹配、布局错误），无需手动检查。
企业合规：在受监管行业（如医学影像）中，批评分数可作为图像在下游使用前的置信度指标。

局限性与未来工作

迭代成本：每增加一次循环都会带来额外的推理时间；实时应用可能需要限制迭代次数或使用轻量编辑器。
批评质量依赖：RL 奖励依赖自动计算的批评分数，对高度主观的编辑可能噪声较大。
向非写实领域的泛化：虽然基准覆盖多种风格，但在抽象艺术或 3D 渲染上的表现尚未验证。
未来方向：作者计划探索自适应停止准则、将用户反馈作为额外奖励信号，并将框架扩展至视频编辑，以应对时间一致性带来的额外推理层。

作者

Hongyu Li
Manyuan Zhang
Dian Zheng
Ziyu Guo
Yimeng Jia
Kaituo Feng
Hao Yu
Yexin Liu
Yan Feng
Peng Pei
Xunliang Cai
Linjiang Huang
Hongsheng Li
Si Liu

论文信息

arXiv ID: 2512.05965v1
分类: cs.CV
发表时间: 2025 年 12 月 5 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型

视觉语言模型（VLMs）展现出卓越的常识和语义推理能力。然而，它们缺乏对物理动态的扎实理解。

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……