[Paper] 评估器引导的强化去学习在文本到图像扩散中的研究
Source: arXiv - 2601.03213v1
Overview
这篇论文解决了一个随着文本‑到‑图像扩散模型(如 Stable Diffusion、DALL·E 2 等)在实际部署中日益重要的实际问题:如何“忘记”特定概念——例如受版权保护的风格或有害的视觉图案——而不破坏模型的整体能力。作者提出了一种强化学习(RL)框架,将扩散去噪过程视为序列决策问题,并引入了一个时间步感知的评估器,以比以往的 RL 方法更稳定地引导忘记过程。
关键贡献
- 基于强化学习的消除框架,将每个去噪步骤建模为一个动作,实现细粒度的信用分配。
- 时间步感知的评论者,基于 CLIP 训练的奖励预测器,评估 噪声潜在 表示在每个扩散步骤的表现,提供密集的逐步反馈。
- 策略梯度更新 用于逆扩散核,可重用离策略数据,使该方法兼容现有的扩散管线。
- 实证验证 在多个目标概念上显示出与强监督基线相当或更好的遗忘效果,同时保持图像保真度和提示符合性。
- 开源发布 代码、评估脚本和预训练的评论者,以加速可复现性和未来研究。
方法论
-
扩散的顺序视角 – 将逆扩散过程(将噪声转化为图像)视为马尔可夫决策过程(MDP):
- 状态:时间步 t 时的当前噪声潜在向量。
- 动作:模型预测的去噪方向(扩散核的输出)。
- 转移:应用扩散步骤以进入下一个时间步。
-
评论者设计 – 基于 CLIP 的网络经过微调,用于从噪声潜在向量和目标概念文本中预测一个标量“去学习奖励”。关键在于,评论者接收的是噪声潜在向量(而非干净图像),因此能够在每个扩散步骤提供学习信号。
-
奖励信号 – 当潜在向量远离不想要的概念(依据 CLIP 相似度判断)时奖励较高,反之则较低。由于评论者作用于噪声潜在向量,奖励本身自然是嘈杂的,且随时间步变化,这有助于策略学习在扩散轨迹的哪个阶段概念最易被削弱。
-
策略更新 – 利用每一步的奖励,作者计算优势估计并采用标准的 REINFORCE 风格策略梯度来调整扩散核的参数。离策略样本(例如原始模型生成的潜在向量)可以被重复使用,从而提升样本效率。
-
训练循环 – 该过程在以下步骤之间交替进行:
- 采样一批包含目标概念的提示词。
- 运行扩散过程,同时收集状态、动作和评论者奖励。
- 定期更新评论者,并通过计算得到的优势来更新扩散策略。
结果与发现
| 指标 | 提议的 RL‑Unlearn | 监督权重编辑 | 全局惩罚基线 |
|---|---|---|---|
| 遗忘(CLIP 相似度下降) | −0.78 | −0.71 | −0.65 |
| 图像质量(FID) | 12.3 | 13.1 | 14.5 |
| 提示忠实度(文本‑图像对齐) | 0.84 | 0.81 | 0.78 |
- 时间步感知的评论器显著降低梯度更新的方差,从而实现 更稳定的训练 和 更快的收敛(约减少 30 % 的扩散步数即可达到目标遗忘水平)。
- 消融实验表明,(i) 移除每步评论器 和 (ii) 仅使用干净图像奖励 都会削弱性能,导致遗忘不足或出现明显的伪影。
- 定性示例表明,模型能够擦除特定艺术家的风格,同时仍能为不相关的提示生成高质量图像。
实际意义
- 合规与知识产权管理 – 公司可以在不从头重新训练的情况下,追溯性地从已部署的扩散模型中剥除受版权或商标保护的视觉元素。
- 安全与审核 – 有害或不允许的视觉概念(例如极端主义符号)可以即时移除,降低意外生成的风险。
- 模块化更新 – 由于该方法作为插件式策略梯度层叠加在现有扩散骨干网络之上,开发者可以将其集成到 CI 流水线,实现持续的“概念卫生”。
- 样本效率 – 离策略重用意味着可以利用先前生成图像的日志,相比完整的监督微调降低计算成本。
限制与未来工作
- Reward Dependence on CLIP – 评估者继承了 CLIP 的偏见;如果 CLIP 对某个概念分类错误,去学习信号可能会变得嘈杂或误导。
- Scalability to Many Concepts – 当前设置为每个目标概念训练一个独立的评估者;将其扩展到同时去学习多个概念仍是一个未解决的挑战。
- Theoretical Guarantees – 虽然实证遗忘效果显著,但尚未提供关于概念被移除程度的形式化界限。
- Future Directions suggested by the authors include: exploring multi‑task critics, integrating more robust reward models (e.g., diffusion‑based classifiers), and studying the trade‑off between forgetting speed and downstream task performance.
作者
- Mykola Vysotskyi
- Zahar Kohut
- Mariia Shpir
- Taras Rumezhak
- Volodymyr Karpiv
论文信息
- arXiv ID: 2601.03213v1
- 分类: cs.LG
- 发表时间: 2026年1月6日
- PDF: 下载 PDF