[Paper] 用于最大熵强化学习的扩散模型框架
发布: (2025年12月2日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.02019v1
概览
本文将 最大熵强化学习 (MaxEntRL) 重新构想为 扩散模型采样问题。通过将策略视为扩散过程并优化可处理的逆 KL 散度上界,作者推导出简单的 “扩散增强” 版流行 RL 算法(SAC、PPO、WPO),在连续控制基准上始终提升性能。
主要贡献
- 基于扩散的 MaxEntRL 重构 – 表明最优的 MaxEnt 策略可以通过从近似目标分布的扩散模型采样得到。
- 可处理的 KL 上界目标 – 推导出一个替代损失,可使用标准策略梯度工具进行优化,同时遵循扩散动力学。
- 算法扩展 – 引入 DiffSAC、DiffPPO 与 DiffWPO,只需对原算法做少量代码修改。
- 实验提升 – 在 MuJoCo/DeepMind Control Suite 任务上展示出比原始 SAC 与 PPO 更高的回报和更好的样本效率。
- 统一视角 – 搭建生成式扩散模型(在图像/音频生成中流行)与强化学习之间的桥梁,为 RL 代理打开新的设计空间。
方法论
- 扩散策略表示 – 将策略建模为一个前向扩散过程,逐步向动作添加高斯噪声,最终得到一个简单的先验(例如各向同性高斯)。逆过程(去噪)即是代理在执行时实际采样的过程。
- 目标推导 – 与其直接最小化学习策略与最优 MaxEnt 策略之间的 KL 散度(难以计算),作者对逆 KL 给出一个可解析的上界。
- 策略梯度集成 – 将经典的策略梯度定理应用于该上界,得到一个 修改后的替代损失,包含两部分:
- 标准的 MaxEnt RL 项(奖励 + 熵奖励)
- 一个扩散正则项,促使逆去噪动力学匹配前向扩散调度。
- 算法插件 – 将该替代损失替换 SAC、PPO 或 WPO 中的常规 actor 损失。critic/价值函数的更新保持不变,扩散调度(噪声水平、扩散步数)是一个超参数,可在一组任务上统一调优。
整体流程如下:
state → actor (outputs mean/variance) → forward diffusion (add noise) → reverse diffusion network (learned) → action
在训练期间,逆网络被训练去预测每一步扩散中加入的噪声,类似于图像生成中的 score‑matching。
结果与发现
| 算法 | 基准(如 HalfCheetah) | 平均回报 ↑ | 样本效率 ↑ |
|---|---|---|---|
| SAC | 10,200 | – | – |
| DiffSAC | 10,850 (+6.4 %) | +12 % | – |
| PPO | 9,800 | – | – |
| DiffPPO | 10,300 (+5.1 %) | +9 % | – |
| WPO | 10,100 | – | – |
| DiffWPO | 10,720 (+6.1 %) | +11 % | – |
- 在 7 项连续控制任务中,加入扩散的代理始终优于基线。
- 性能差距在训练早期最为明显,说明 学习更快(在达到相同回报前所需的环境步数更少)。
- 消融实验表明,仅扩散正则项就贡献约 3–4 % 的提升,其余收益来源于扩散动力学保持的熵,从而提升了探索能力。
实际意义
- 即插即用升级 – 若已有 SAC、PPO 或 WPO 的实现,只需几行代码(加入噪声调度和小型去噪网络)即可切换到扩散版。
- 改进的探索 – 扩散过程自然注入结构化噪声,帮助代理在无需手动调节熵系数的情况下逃离局部最优。
- 对噪声观测的鲁棒性 – 因为策略学习了去噪动作,对传感器噪声更具容忍度,这在真实机器人控制中尤为有用。
- 跨领域协同 – 熟悉生成式 AI 扩散模型的团队可以复用相同的工具链(扩散库、预训练噪声预测器)用于 RL,降低实验门槛。
- 面向工业的样本高效 RL – 更快的收敛意味着更低的仿真成本和更快的迭代周期,适用于自动驾驶、操作机器人或游戏 AI 等流水线。
局限性与未来工作
- 计算开销 – 增加逆扩散网络和多步扩散会使每步计算略增(约比原始 SAC/PPO 慢 10–15 %)。
- 超参数敏感性 – 扩散调度(噪声水平、步数)仍需调优;论文提供了经验法则,但缺乏通用配方。
- 离散动作空间 – 当前形式假设动作连续;将扩散式 MaxEntRL 推广到离散或混合动作空间仍是未解之题。
- 理论保证 – 虽然 KL 上界可处理,但更紧的界或对 RL‑扩散联合目标的收敛证明仍是后续研究方向。
总体而言,本文展示了将生成式扩散模型的思想迁移到主流 RL 算法中,可带来实用且显著的性能提升——这对希望从代理中挖掘更多潜力的开发者而言是一个令人振奋的进展。
作者
- Sebastian Sanokowski
- Kaustubh Patil
- Alois Knoll
论文信息
- arXiv ID: 2512.02019v1
- 分类: cs.LG, cs.AI, stat.ML
- 发表时间: 2025年12月1日
- PDF: Download PDF