[论文] Dyna‑Q 强化学习的预测安全盾

发布: (2025年11月26日 GMT+8 23:59)
6 min read
原文: arXiv

Source: arXiv - 2511.21531v1

概览

本文提出了一种 预测安全护盾(Predictive Safety Shield),可嵌入基于模型的强化学习(RL)代理——尤其是 Dyna‑Q——在离散环境中使用。通过使用学习到的模型向前模拟若干步,护盾能够挑选 最安全且兼顾未来性能 的动作,提供硬性的安全保证且不牺牲学习速度。

主要贡献

  • 预测护盾:通过使用短时程模型预测来评估每个安全动作的下游影响,扩展了经典安全护盾的功能。
  • 局部 Q‑函数更新:护盾基于模拟的安全轨迹即时调整代理的 Q 值,实际上在“教”代理哪些安全动作真正有益。
  • 考虑性能的安全:展示了安全不必是笨拙的后备方案;护盾可以引导代理沿最优或近最优的安全路径前进。
  • 对分布漂移的鲁棒性:证明该方法能够容忍用于护盾的模拟模型与真实环境之间的不匹配,而无需额外再训练。
  • 实证验证:在网格世界基准实验中表明,即使是 2 步预测视野也能恢复最优安全策略。

方法论

  1. 基础 RL 算法 – Dyna‑Q:代理在学习 Q‑函数的同时构建环境的学习模型(转移和奖励)。
  2. 安全护盾层:在执行动作之前,护盾检查该动作是否 先验 安全(例如,是否保持在预定义的安全集合内)。
  3. 预测模拟:对于每个候选安全动作,护盾使用学习模型滚动短视野 (h)(通常为 1‑3 步),评估模拟轨迹的累计奖励和安全状态。
  4. 局部 Q 值校正:护盾用模拟返回值更新当前状态‑动作对的 Q 值,使代理倾向于那些既安全又有更高未来奖励的动作。
  5. 执行:代理选择具有最高(经护盾调整的)Q 值的动作;若不存在安全动作,则使用预定义的后备控制器。

整个过程在线运行,仅依赖已有的 Dyna‑Q 模型——无需额外的神经网络或离线数据收集。

结果与发现

环境视野 (h)成功率(安全)累计奖励
5×5 网格世界(静态障碍)1100 %接近最优
10×10 网格世界(移动危害)2100 %比基线 Dyna‑Q 高 15 %
仿真‑真实转移(模型漂移)3100 %与仿真中相同,无性能下降
  • 短视野足够:即使 (h=1),护盾也能避免死胡同并引导代理走向最优路径。
  • 无安全违规:在所有实验中,护盾保证硬性安全——从未访问过不安全状态。
  • 鲁棒性:当环境动力学被扰动(模拟“真实世界”漂移)时,护盾仍能阻止不安全动作,无需重新训练模型。

实际意义

  • 安全关键机器人:在仓库或工厂中导航的移动机器人可使用护盾保证碰撞自由,同时仍能学习高效路径。
  • 离散决策层的自动驾驶车辆:高层机动规划(如变道)可通过预测护盾受保护,遵守交通规则并预见下游风险。
  • 工业控制:学习优化生产序列的 PLC 可嵌入护盾,避免不安全的执行器指令,降低停机和维护成本。
  • 快速原型:开发者可将护盾插入现有的 Dyna‑Q 或其他基于模型的 RL 代码库,几乎无需改动,即可获得安全保证,无需单独的验证流水线。

局限性与未来工作

  • 离散状态‑动作空间:当前形式假设有限的网格类环境;将其扩展到连续域需要对预测滚动使用函数逼近。
  • 模型保真度:护盾的有效性依赖于学习模型在短视野内的相对准确性;大模型误差可能误导 Q 更新。
  • 滚动的可扩展性:虽然短视野保持计算廉价,但在更大状态空间中评估大量安全动作仍可能出现组合爆炸。

未来研究方向包括:通过学习动力学集合将预测护盾适配到连续控制,加入不确定性量化以加权 Q 更新,并在真实机器人平台上测试,以验证模拟鲁棒性声明。

作者

  • Jin Pin
  • Krasowski Hanna
  • Vanneaux Elena

论文信息

  • arXiv ID: 2511.21531v1
  • 分类: cs.LG, cs.AI, cs.RO, eess.SY
  • 发表时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »