[论文] 使用强化学习解决具有未知可行性的参数鲁棒规避问题
发布: (2026年2月18日 GMT+8 02:53)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.15817v1
概述
本文针对经典可达性分析——确保系统对任何可接受的起始状态都保持安全——与现代深度强化学习(RL)之间的差距进行研究,后者优化的是针对状态分布的性能。当安全集合未知或仅部分可行时,标准的 RL 可能会忽视那些罕见但关键的状态。作者提出了 Feasibility‑Guided Exploration (FGE),一种技术,能够同时发现哪些初始条件实际上是可行的(即存在安全策略),并学习一个在该可行子集上最大化安全覆盖率的鲁棒策略。
关键贡献
- Feasibility‑Guided Exploration (FGE):一种统一的算法,在 (a) 探索环境以标记初始条件为可行/不可行 和 (b) 训练策略以满足可行区域的可达性约束之间交替进行。
- Parameter‑robust formulation:将可达性问题表述为对 一组 初始状态、动力学参数和安全约束的鲁棒优化,而非单一抽样分布。
- Theoretical insight:表明若没有可行性信息,鲁棒可达性问题可能出现病态,从而说明在线可行性估计器的必要性。
- Empirical validation:在具有挑战性的 MuJoCo 和 Kinetix 任务上(包括高维像素观测),相较于最强基线实现了最高 50 % 的安全状态覆盖提升。
- Scalable implementation:利用现成的深度强化学习组件(如 PPO、SAC)和轻量级二分类器来估计可行性,使该方法易于集成到现有流水线中。
方法论
-
问题设定
- 定义一个 参数集合 Θ,用于捆绑初始状态、模型不确定性和安全集的定义。
- 目标:寻找一个策略 π,使系统在 所有 可行的 θ ∈ Θ(即至少存在一个安全策略的 θ)下都保持在安全区域内。
-
可行性估计
- 训练一个二分类器 C(θ),预测给定的 θ 是否允许任何安全轨迹。
- 分类器在线更新:每一次 rollout(无论成功——保持安全,还是失败——违反安全)都会提供一个带标签的样本。
-
引导探索
- 从当前的可行性估计 C⁻¹(positive) 中采样 θ,偏向有前景的区域进行探索,同时仍会偶尔探查不确定区域(ε‑greedy 风格)。
- 这可以防止智能体在无望的初始化上浪费回合。
-
鲁棒策略学习
- 使用标准的强化学习算法(例如 PPO),并采用 最坏情况 奖励形式:如果 rollout 中出现任何安全违规,回报会被大幅惩罚,从而鼓励策略在整个可行集合上保持安全。
- 损失函数还会结合一个正则化项,使策略具备 参数不变性(即在不同 θ 下表现相似)。
-
迭代循环
- 在以下步骤之间交替进行:(i) 收集新的 rollout,(ii) 更新可行性分类器,(iii) 改进策略。
- 当分类器的预测趋于稳定且策略的安全覆盖率不再提升时,即视为收敛。
结果与发现
| 环境 | 基线(Robust RL) | FGE(我们的) | 覆盖率 ↑ |
|---|---|---|---|
| MuJoCo Hopper(质量和摩擦变化) | 62 % 安全状态 | 94 % 安全状态 | +32 % |
| MuJoCo Walker2d(躯干长度随机化) | 55 % | 84 % | +29 % |
| Kinetix(基于像素的人形机器人,未知障碍) | 48 % | 78 % | +30 % |
| 基于像素的 CartPole(光照变化) | 70 % | 92 % | +22 % |
- 覆盖率 衡量的是在长时间滚动过程中,学习到的策略在可行的 θ 范围内从未违反安全约束的比例。
- 在所有任务中,FGE 始终优于最强的现有鲁棒强化学习方法(Robust PPO),尤其当可行区域 不连通 或 高度非凸 时表现更佳。
- 消融实验表明,去除可行性分类器会导致覆盖率下降约 15 %,验证了其核心作用。
- 训练开销适中:分类器每个回合仅增加 <5 % 的额外计算。
实际意义
- 安全关键型机器人:在负载、地形或传感器噪声不确定的情况下,自治机械手臂或足式机器人现在可以训练出在所有实际可达条件下都能保证安全的策略,而不仅仅是最可能的情形。
- 仿真到真实的迁移:通过将仿真参数(例如摩擦系数)视为 Θ 的一部分,FGE 能够识别出实际映射到安全真实行为的仿真世界子集,从而减少对大量领域随机化的需求。
- 合规与认证:必须展示可证明安全性的行业(如医疗设备、航空航天)可以使用可行性分类器作为轻量级的“证书”,证明训练得到的控制器在整个可接受的工作包络内遵守安全约束。
- 开发者工具:该算法可最小化代码改动地接入现有强化学习库,使团队能够在训练脚本中添加一个“可行性引导”标志,并立即获得鲁棒性,而无需重新设计奖励结构。
限制与未来工作
- 可行性分类器的可扩展性:虽然一个简单的二元模型在已测试的维度上表现良好,但极高维的参数空间(例如全身动力学 + 传感器噪声)可能需要更具表达能力的模型或主动学习策略。
- 保守性:该方法可能在训练初期高估不可行性,从而丢弃稀有但安全的初始化;自适应的探索调度可以缓解此问题。
- 理论保证:本文提供了鲁棒性的实证证据,但缺乏关于收敛到最大可行集合的形式化证明。将分析扩展以提供此类保证是一个开放的方向。
- 真实世界验证:所有实验均在仿真中进行;将 FGE 转移到实际硬件上——在安全违规会产生真实成本的环境中——仍有待验证。
总体而言,可行性引导探索在可达性分析的严格要求与深度强化学习的灵活性之间提供了一座务实的桥梁,为实现更安全、更可靠的自主系统开辟了道路。
作者
- Oswin So
- Eric Yang Yu
- Songyuan Zhang
- Matthew Cleaveland
- Mitchell Black
- Chuchu Fan
Paper Information
- arXiv ID: 2602.15817v1
- 类别: cs.LG, cs.RO, math.OC
- 出版时间: 2026年2月17日
- PDF: 下载 PDF