[Paper] 随机重置加速强化学习中的策略收敛

发布: (2026年3月18日 GMT+8 01:50)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.16842v1

概述

论文 Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning 研究了一种出乎意料的简单技巧,借鉴自统计物理学:间歇性地将强化学习代理强制返回到一个固定的“重置”状态。作者表明,这种随机重置可以显著加快策略学习——无论是在经典的表格化网格世界,还是在现代深度强化学习环境中——且不会改变最优解。

关键贡献

  • 理论桥梁:将用于优化首次通过时间的随机重置(stochastic resetting)物理概念与通过经验演化的强化学习(reinforcement‑learning)动力学相连接。
  • 表格域的实证:展示即使对一个天真的扩散代理(naïve diffusive agent)并未提升原始搜索速度,重置仍能缩短策略收敛所需的更新次数。
  • 深度强化学习验证:表明随机重置在稀疏奖励的连续控制基准上提升性能,否则探索将极其困难。
  • 机制洞察:论证重置截断了冗长、信息量低的轨迹,从而锐化价值传播并加速时序差分学习——同时不改变最优策略。
  • 实用配方:提供一个轻量、可调的超参数(重置概率),可在现有 RL 流程中以最少的代码改动直接加入。

方法论

  1. 表格实验 – 作者使用小型网格世界(例如 5×5 迷宫),在其中通过标准 Q‑learning 更新状态‑动作价值表。每个回合结束后,以概率 p 将智能体传送回指定的“重置”格子;否则它从随机起始状态开始。
  2. 深度强化学习实验 – 他们采用连续控制任务(一个具有稀疏目标奖励的二维导航问题),并训练配备神经网络价值函数的软演员‑评论家(Soft Actor‑Critic, SAC)智能体。每个回合结束后,环境以概率 p 将智能体重置到固定的原点。
  3. 评估指标 – 收敛速度通过策略的平均回报达到预定义阈值所需的环境步数来衡量。他们还记录回合长度的分布以及 TD‑误差的方差。
  4. 基线 – 对比对象包括 (i) 未使用重置的普通强化学习,(ii) 提高的时间折扣因子,和 (iii) 课程式起始状态采样。

所有实验在多个随机种子下重复进行,且重置概率 p 在 0(无重置)到 0.5 之间进行扫描,以研究其影响。

Results & Findings

  • 在表格 Q‑learning 中更快收敛 – 即使是适度的重置概率(p ≈ 0.1)也能将所需的学习步数降低约 30‑40 %,相较于基线。最优策略保持不变;仅学习轨迹被缩短。
  • 即使首次到达时间未改变仍有收益 – 在某些迷宫中,重置并未减少随机行者到达目标的期望时间,但仍能加速策略学习——这凸显了一种不同于经典首次到达优化的机制。
  • 稀疏奖励环境下深度 RL 的提升 – 对于连续导航任务,带重置的 SAC 达到目标成功率的速度约为普通 SAC 的 2 倍。该改进在奖励极度稀疏(仅在目标处有奖励)时最为显著。
  • 降低 TD‑误差方差 – 重置会截断冗长且信息量低的轨迹,从而产生更紧凑的 TD‑误差分布,提升梯度更新的稳定性。
  • 对重置频率的鲁棒性 – 过高的重置概率(p > 0.4)可能因限制对多样状态的暴露而导致性能下降,但在 0.1–0.2 左右的“甜点”频率在各任务中均表现良好。

实际意义

  • Plug‑and‑play exploration aid – 添加随机重置只需在每个回合后插入条件性的 env.reset() 调用;无需更改学习算法或网络结构。
  • Sparse‑reward problems – 在机器人、自治导航或任何反馈稀少的领域,重置可以显著缩短“冷启动”阶段。
  • Curriculum design alternative – 与其手动设计逐渐更难的起始状态课程,随机重置提供了一种自动方式,使智能体保持在状态空间的有信息区域附近。
  • Hyper‑parameter tuning – 重置概率可以像学习率调度一样处理:初始设低,在训练早期提升,然后随着策略稳定而衰减。
  • Compatibility with existing frameworks – 该技术适用于 on‑policy(如 PPO)和 off‑policy(如 DQN、SAC)算法,使其成为 RL 工程师广泛适用的工具。

限制与未来工作

  • 状态依赖性未探讨 – 本文仅研究了单一、固定的重置状态。自适应或学习的重置位置可能进一步提升效率。
  • 对高维任务的可扩展性 – 实验仅限于适度的网格世界和低维导航基准;在 Atari 或 MuJoCo 等复杂领域中重置的表现仍不明确。
  • 在非遍历环境中的潜在偏差 – 在某些状态只能通过长轨迹到达的环境中,频繁重置可能导致智能体永远无法发现这些状态。
  • 理论分析 – 虽然作者提供了直觉,但对深度强化学习中随机重置的正式收敛性证明仍是悬而未决的问题。

未来的研究方向包括学习最优重置策略、将重置与内在动机信号结合,以及将分析扩展到多智能体或层次强化学习设置。

作者

  • Jello Zhou
  • Vudtiwat Ngampruetikorn
  • David J. Schwab

论文信息

  • arXiv ID: 2603.16842v1
  • 分类: cs.LG, cond-mat.dis-nn, cond-mat.stat-mech, eess.SY, physics.bio-ph
  • 发布日期: 2026年3月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »