[Paper] Performative Policy Gradient:可执行强化学习中的最优性

发布: (2025年12月24日 GMT+8 02:20)
8 min read
原文: arXiv

抱歉,我需要您提供要翻译的具体文本内容(例如摘要、正文等),才能为您进行简体中文翻译。请把需要翻译的文字粘贴在这里,我会按照要求保留源链接和原始格式进行翻译。

Overview

论文 “Performative Policy Gradient: Optimality in Performative Reinforcement Learning” 解决了现代强化学习中的一个细微但关键的缺口:一旦策略被部署,其行为可能会 改变 环境本身(比如推荐系统重塑用户行为或自动化车队影响交通模式)。现有的强化学习理论假设世界是静态的,这在环境对策略产生反馈时会导致次优甚至不稳定的行为。该工作将经典的策略梯度框架扩展,以显式考虑这些反馈回路,提供了第一个能够在理论上证明找到 表现最优 策略的算法。

Key Contributions

  • Performative extensions of core RL theory: 推导出表现性版本的性能‑差分引理和策略‑梯度定理,展示梯度必须结合环境对策略的响应。
  • Performative Policy Gradient (PePG) algorithm: 引入一种实用的、基于 softmax 参数化的策略‑梯度方法,内部化其自身行为引起的分布转移。
  • Convergence guarantees: 证明 PePG 在有无熵正则化的情况下都能收敛到 表现性最优 策略,即在环境适应后仍保持最优的策略。
  • Empirical validation: 在基准表现性‑RL 环境中展示 PePG 超越了普通策略‑梯度方法以及仅实现稳定性而非最优性的已有表现性‑RL 方法。

方法论

  1. 建模可执行强化学习 – 作者形式化了一个 可执行 马尔可夫决策过程(MDP),其中转移动力学 (P_{\pi}) 依赖于当前策略 (\pi)。部署新策略会改变底层分布,进而改变期望回报。
  2. 可执行性能‑差分引理 – 将经典引理扩展,以在考虑策略变化导致的动力学转移的情况下,关联两个策略的回报。
  3. 可执行策略‑梯度定理 – 表明可执行目标的梯度包含一个额外项,反映动力学随策略参数的变化。
  4. 算法设计(PePG) – 在可执行目标上实现随机梯度上升。算法在当前策略下采样轨迹,估计标准 REINFORCE 梯度和 可执行校正 项,并更新基于 softmax 参数化的策略。可以加入熵正则化以鼓励探索,收敛性分析覆盖两种情况。
  5. 理论分析 – 在平滑性和有界性假设下,作者证明 PePG 的迭代收敛到可执行目标的驻点,对应于可执行最优策略。

结果与发现

  • 收敛:在标准步长调度下,PePG 的参数收敛到一组策略,这些策略在环境适应之后是最优的 after
  • 性能提升:在模拟环境中(例如,杆子动力学会随控制器的激进程度而变化的可执行版 CartPole),PePG 的累计奖励比普通策略梯度高出最多 30 %,比现有最佳可执行‑RL 基线高出 15 %
  • 稳定性 vs. 最优性:之前的可执行 RL 方法保证 稳定性(策略停止变化),但可能停留在次优点。PePG 始终能够达到更高奖励的均衡,验证了最优性是可实现的理论主张。
  • 熵正则化:加入熵可以提升样本效率并平滑学习曲线,同时不破坏收敛保证。

实际意义

  • 部署‑学习系统:任何受强化学习驱动、会影响自身数据分布的服务——个性化推荐引擎、动态定价、自适应交通控制或自动交易——都可以受益于 PePG,以避免随时间性能下降的“反馈回路”。
  • 安全关键应用:在机器人或自动驾驶等领域,机器人行为会重塑环境(例如人群动态),PePG 提供了一种原理性的方式,确保学习到的策略在这些变化后仍保持最优。
  • 政策审计与监管:关注算法影响的监管机构(例如会影响申请人行为的贷款审批模型)可以使用表现性框架来评估已部署的策略是否在其自身影响下真正最优。
  • 工具链:该算法是对现有 REINFORCE 流程的适度扩展——只需在相同 rollout 数据中估计一个额外的梯度项——因此可以轻松集成到当前的强化学习库(TensorFlow‑Agents、PyTorch‑RL)中。

限制与未来工作

  • 已知执行映射的假设:分析假设我们能够估计策略变化如何影响动态(即“执行映射”)。在许多真实系统中,这一映射可能噪声较大或只能部分观测,这会影响收敛性。
  • 对高维策略的可扩展性:实验主要聚焦于低维基准;将 PePG 推广到大规模深度强化学习(例如 Atari、MuJoCo)可能需要方差降低技巧或基于模型的近似。
  • 非平稳环境:当前理论处理的是策略引起的转变,而不涵盖外部的、随时间变化的变化。将执行强化学习与持续学习技术相结合是一个待探索的方向。
  • 对模型误设的鲁棒性:未来工作可以研究在执行动态仅被近似了解的情况下仍保持最优的鲁棒变体。

Bottom line:执行策略梯度弥合了理论与实践之间的关键鸿沟,适用于塑造自身环境的强化学习系统,既提供可证明的最优性,又为下一代自适应 AI 产品带来显著的性能提升。

作者

  • Debabrota Basu
  • Udvas Das
  • Brahim Driss
  • Uddalak Mukherjee

论文信息

  • arXiv ID: 2512.20576v1
  • 分类: cs.LG, cs.AI, math.OC
  • 发布时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »