[Paper] 用于最大熵强化学习的扩散模型框架

发布: 4天前 (2025年12月2日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2512.02019v1

概览

本文将 最大熵强化学习 (MaxEntRL) 重新构想为 扩散模型采样问题。通过将策略视为扩散过程并优化可处理的逆 KL 散度上界，作者推导出简单的 “扩散增强” 版流行 RL 算法（SAC、PPO、WPO），在连续控制基准上始终提升性能。

主要贡献

基于扩散的 MaxEntRL 重构 – 表明最优的 MaxEnt 策略可以通过从近似目标分布的扩散模型采样得到。
可处理的 KL 上界目标 – 推导出一个替代损失，可使用标准策略梯度工具进行优化，同时遵循扩散动力学。
算法扩展 – 引入 DiffSAC、DiffPPO 与 DiffWPO，只需对原算法做少量代码修改。
实验提升 – 在 MuJoCo/DeepMind Control Suite 任务上展示出比原始 SAC 与 PPO 更高的回报和更好的样本效率。
统一视角 – 搭建生成式扩散模型（在图像/音频生成中流行）与强化学习之间的桥梁，为 RL 代理打开新的设计空间。

方法论

扩散策略表示 – 将策略建模为一个前向扩散过程，逐步向动作添加高斯噪声，最终得到一个简单的先验（例如各向同性高斯）。逆过程（去噪）即是代理在执行时实际采样的过程。
目标推导 – 与其直接最小化学习策略与最优 MaxEnt 策略之间的 KL 散度（难以计算），作者对逆 KL 给出一个可解析的上界。
策略梯度集成 – 将经典的策略梯度定理应用于该上界，得到一个 修改后的替代损失，包含两部分：
- 标准的 MaxEnt RL 项（奖励 + 熵奖励）
- 一个扩散正则项，促使逆去噪动力学匹配前向扩散调度。
算法插件 – 将该替代损失替换 SAC、PPO 或 WPO 中的常规 actor 损失。critic/价值函数的更新保持不变，扩散调度（噪声水平、扩散步数）是一个超参数，可在一组任务上统一调优。

整体流程如下：

state → actor (outputs mean/variance) → forward diffusion (add noise) → reverse diffusion network (learned) → action

在训练期间，逆网络被训练去预测每一步扩散中加入的噪声，类似于图像生成中的 score‑matching。

结果与发现

算法	基准（如 HalfCheetah）	平均回报 ↑	样本效率 ↑
SAC	10,200	–	–
DiffSAC	10,850 (+6.4 %)	+12 %	–
PPO	9,800	–	–
DiffPPO	10,300 (+5.1 %)	+9 %	–
WPO	10,100	–	–
DiffWPO	10,720 (+6.1 %)	+11 %	–

在 7 项连续控制任务中，加入扩散的代理始终优于基线。
性能差距在训练早期最为明显，说明 学习更快（在达到相同回报前所需的环境步数更少）。
消融实验表明，仅扩散正则项就贡献约 3–4 % 的提升，其余收益来源于扩散动力学保持的熵，从而提升了探索能力。

实际意义

即插即用升级 – 若已有 SAC、PPO 或 WPO 的实现，只需几行代码（加入噪声调度和小型去噪网络）即可切换到扩散版。
改进的探索 – 扩散过程自然注入结构化噪声，帮助代理在无需手动调节熵系数的情况下逃离局部最优。
对噪声观测的鲁棒性 – 因为策略学习了去噪动作，对传感器噪声更具容忍度，这在真实机器人控制中尤为有用。
跨领域协同 – 熟悉生成式 AI 扩散模型的团队可以复用相同的工具链（扩散库、预训练噪声预测器）用于 RL，降低实验门槛。
面向工业的样本高效 RL – 更快的收敛意味着更低的仿真成本和更快的迭代周期，适用于自动驾驶、操作机器人或游戏 AI 等流水线。

局限性与未来工作

计算开销 – 增加逆扩散网络和多步扩散会使每步计算略增（约比原始 SAC/PPO 慢 10–15 %）。
超参数敏感性 – 扩散调度（噪声水平、步数）仍需调优；论文提供了经验法则，但缺乏通用配方。
离散动作空间 – 当前形式假设动作连续；将扩散式 MaxEntRL 推广到离散或混合动作空间仍是未解之题。
理论保证 – 虽然 KL 上界可处理，但更紧的界或对 RL‑扩散联合目标的收敛证明仍是后续研究方向。

总体而言，本文展示了将生成式扩散模型的思想迁移到主流 RL 算法中，可带来实用且显著的性能提升——这对希望从代理中挖掘更多潜力的开发者而言是一个令人振奋的进展。

作者

Sebastian Sanokowski
Kaustubh Patil
Alois Knoll

论文信息

arXiv ID: 2512.02019v1
分类: cs.LG, cs.AI, stat.ML
发表时间: 2025年12月1日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 通用权重子空间假设

我们展示了在不同任务上训练的深度神经网络表现出惊人相似的低维参数子空间。我们提供了首次大规模……

[Paper] 价值梯度引导用于流匹配对齐

虽然已有方法可以将 flow matching models——一种流行且有效的 generative models——与 human preferences 对齐，但现有方法未能……

[Paper] 基于多对比 MRI 的深度婴儿脑分割

磁共振成像（MRI）的分割通过划分解剖结构，促进对人类大脑发育的分析。然而，在婴儿和...

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

最近的统一多模态大语言模型（MLLMs）展示了令人印象深刻的能力，结合了链式思考（CoT）推理，以增强文本到-...