[Paper] ParetoSlider: 扩散模型后训练用于连续奖励控制

发布: 1天前 (2026年4月23日 GMT+8 01:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.20816v1

概览

本文提出了 ParetoSlider，这是一种微调扩散模型（许多现代图像生成器的核心）的新方法，使得单个已训练模型在推理时能够在整个竞争目标的光谱上进行调节——例如，编辑后的图像与用户提示的匹配程度与其对原始内容的保真度之间的权衡。通过在训练期间将奖励权重视为条件变量，作者让开发者能够在权衡之间“滑动”，无需重新训练或切换检查点。

关键贡献

MORL‑enabled diffusion training：引入一种多目标强化学习（MORL）框架，学习扩散模型的完整 Pareto 前沿。
Preference‑conditioned conditioning：使用表示奖励权重的连续标量（或向量）作为扩散模型的额外输入，实现目标的即时调整。
Single‑model solution：实现的性能可与为每个固定权衡单独训练的模型相当，甚至更好，降低存储和维护开销。
Broad backbone compatibility：在三种最先进的 flow‑matching 骨干网络（SD3.5、FluxKontext、LTX‑2）上展示了该方法，表明它并不依赖特定架构。
Empirical validation：提供了定量和定性证据，表明 ParetoSlider 能在提示遵循度与源图像保真度以及其他冲突标准之间平滑、可预测地切换。

方法论

定义多个奖励 – 作者挑选两个（或更多）奖励函数，以捕捉相互竞争的目标（例如，基于 CLIP 的提示相似度 vs. 与输入图像的结构相似度）。
将偏好向量作为条件输入 – 训练期间，随机采样一个偏好权重 λ ∈ [0,1]（或更高维的权重向量），并将其拼接到扩散模型的条件输入中（如文本提示、潜在向量）。这告诉模型“本轮对每个奖励的关注程度”。
MORL 损失 – 在标准扩散损失的基础上加入强化学习式的策略梯度项，以最大化加权和 λ·R₁ + (1‑λ)·R₂。由于 λ 在每一步都会变化，模型能够看到整个权衡连续体。
训练循环 – 使用大量图像‑提示对（或图像‑到‑图像编辑）数据集，对模型进行常规扩散目标加 MORL 项的训练。无需保存额外的检查点；单一网络学习将任意 λ 映射到相应的生成行为。
推理滑块 – 生成时，开发者只需设定期望的 λ（或使用滑块 UI），然后运行扩散过程。模型会输出位于该权重配置对应的学习到的帕累托前沿上的结果。

结果与发现

骨干网络	Prompt‑Score ↑	Fidelity‑Score ↑	ParetoSlider vs. Fixed‑Weight Baselines
SD3.5	2.1 %	1.8 %	在整个前沿上匹配或超越
FluxKontext	1.9 %	2.3 %	同样趋势；曲线更平滑
LTX‑2	2.4 %	2.0 %	在中等 λ 值范围内表现更佳

平滑控制：改变 λ 会在两个指标上产生单调变化，证实模型学习到了连贯的 Pareto 前沿。
无性能惩罚：即使在极端端点（λ ≈ 0 或 1）时，ParetoSlider 的输出也与专门针对单一目标训练的模型相当。
定性示例：并排图像展示了提升 λ 会产生更激进的提示驱动编辑，而降低 λ 则保留更多原始图像的结构。

实际意义

单模型部署：公司可以只发布一个扩散检查点，服务多个使用场景（创意生成、忠实编辑、风格迁移），只需提供一个 UI 滑块即可。
降低存储和持续集成成本：无需为每种奖励权重维护一整套检查点；更新会同时影响所有权衡。
动态用户个性化：终端用户可以实时微调创意与保真度之间的平衡，从而在照片编辑应用、生成式设计工具以及 AI 辅助内容创作平台上获得更高的满意度。
快速原型制作：研究人员可以尝试新的奖励组合（例如加入安全性或偏差缓解项），无需从头重新训练——只需扩展偏好向量。
API 服务的潜力：云服务提供商可以在生成接口中公开一个 “ParetoSlider” 参数，为开发者提供一个简单的调节钮，以满足多样化的 SLA（速度与质量、创新与一致性）的需求。

限制与未来工作

可扩展到多个目标：本文聚焦于两个竞争奖励；扩展到三或更多可能需要更高维度的条件化，并可能使滑块 UI 变得复杂。
奖励设计依赖性：Pareto 前沿的质量取决于行为良好、可微分的奖励函数；噪声大或校准不佳的奖励可能导致训练不稳定。
计算开销：加入 MORL 策略梯度项相较于普通扩散训练会适度增加训练时间。
对非图像领域的泛化：虽然在图像扩散上已有演示，但将 ParetoSlider 应用于文本、音频或多模态生成器仍是未解之题。
未来方向：作者建议探索自适应偏好采样（将训练精力聚焦于前沿的未充分覆盖区域），整合用户反馈循环进行在线微调，以及在具有数十个目标的大规模基础模型上进行扩展。

作者

Shelly Golan
Michael Finkelson
Ariel Bereslavsky
Yotam Nitzan
Or Patashnik

论文信息

arXiv ID: 2604.20816v1
分类: cs.LG, cs.CV
出版日期: 2026年4月22日
PDF: Download PDF

[Paper] ParetoSlider: 扩散模型后训练用于连续奖励控制

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记