[Paper] 稀疏威胁,聚焦防御:关键性感知的鲁棒强化学习用于安全自动驾驶

发布: (2026年1月5日 GMT+8 13:20)
8 min read
原文: arXiv

Source: arXiv - 2601.01800v1

Overview

本文针对使用强化学习(RL)学习行为的自动驾驶汽车所面临的一个紧迫问题:当传感器数据或控制信号中出现细微的对抗性扰动时,它们表现出惊人的脆弱性。作者提出了 Criticality‑Aware Robust RL (CARRL),一种对抗性训练框架,专注于安全关键故障(例如碰撞)可能发生的稀疏时刻,而不是将每个时间步都视为同等的攻击目标。

关键贡献

  • General‑sum game formulation – 将攻击者(风险暴露对手,REA)和驾驶员(风险目标鲁棒代理,RTRA)之间的交互建模为非零和博弈,捕捉稀疏攻击者与以安全为中心的驾驶员之间的不对称性。
  • Risk‑exposure adversary (REA) – 引入一种解耦优化,将攻击预算集中在对安全影响最大的少数时间步上,高效暴露隐藏的失效模式。
  • Dual‑replay buffer for the defender – RTRA 同时从良性经验和稀缺的对抗经验中学习,为每种经验使用独立的缓冲区,以避免对有限的攻击数据过拟合。
  • Policy‑consistency regularization – 强制策略的动作分布在小幅扰动下保持稳定,从而平滑学习并提升鲁棒性。
  • Empirical gains – 在多个自动驾驶基准上,CARRL 相较于最强的现有鲁棒 RL 基线将碰撞率降低 ≥ 22.66 %

方法论

  1. 问题设定 – 将驾驶环境建模为一个强化学习马尔可夫决策过程(MDP)。在每一步,风险暴露对手(REA) 可以在有限的“预算”(一次情节中的总幅度)内向状态(例如传感器读数)添加有界扰动。
  2. 非零和博弈 – 与传统的对抗性 RL 将攻击者和智能体视为零和对手不同,CARRL 让 REA 的目标仅是诱发安全关键的失效,而 风险目标鲁棒智能体(RTRA) 同时优化安全性以及驾驶效率(速度、舒适度)。
  3. 风险暴露对手(REA)
    • 解耦优化:首先,一个风险检测器扫描轨迹,定位高危关键时刻(例如接近交叉口)。
    • 聚焦扰动:随后 REA 将其预算分配到这些时刻,求解约束优化,以最大化碰撞概率。
  4. 风险目标鲁棒智能体(RTRA)
    • 双重回放缓冲区:一个缓冲区存储正常(良性)转移;另一个缓冲区存储少量 REA 生成的对抗转移。
    • 联合训练:智能体在每次更新时同时从两个缓冲区采样,对良性数据使用标准 RL 损失(如 PPO),对对抗数据使用鲁棒性损失
    • 策略一致性正则项:KL‑散度项惩罚在干净状态与扰动状态下策略动作分布的巨大变化,鼓励行为平滑。
  5. 训练循环 – 在 REA 激活的情况下生成情节;每个情节结束后更新缓冲区,RTRA 执行若干梯度步骤。REA 的参数会定期刷新,以保持攻击的挑战性。

结果与发现

基准基线 (例如 PPO‑AT)CARRL碰撞率降低
城市交叉口12.4 %9.5 %23.4 %
高速公路合流8.1 %6.2 %23.5 %
混合交通15.7 %12.1 %22.9 %
  • 稀疏攻击更具破坏性:即使在极小的扰动预算下,REA 也能引发连续攻击基线未能捕捉的碰撞。
  • 双缓冲学习缓解数据稀缺:RTRA 保持高样本效率,实现相当或更好的整体驾驶性能(速度、车道保持),且更安全。
  • 策略一致性稳定训练:去除 KL 正则化器的消融实验导致碰撞率波动并收敛速度变慢。

Practical Implications

  • 更安全的仿真‑到‑真实转移 – 通过显式地在导致崩溃的罕见“边缘案例”情景上进行训练,开发者可以在将 RL 策略从仿真器迁移到真实车辆时缩小安全差距。
  • 考虑预算的对抗性测试 – REA 的预算受限攻击模拟了现实世界的传感器故障(例如短暂遮挡),为自动驾驶系统提供了更真实的压力测试套件。
  • 即插即用的鲁棒性模块 – CARRL 的组件(风险检测器、双重回放缓冲区、一致性损失)可以以最小的代码改动集成到现有的 RL 管线(PPO、SAC 等)中。
  • 与监管的相关性 – 在对抗条件下展示碰撞概率的量化降低,可帮助满足安全标准并为认证机构提供证据。

限制与未来工作

  • 风险检测器依赖 – 当前的 REA 依赖手工设计的启发式方法来定位高危关键时间步;端到端学习此检测器可能提升对新场景的适应性。
  • 对高维感知的可扩展性 – 实验使用相对低维的状态表示;将 CARRL 扩展到原始摄像头/激光雷达输入可能需要更复杂的攻击模型。
  • 受限的对抗预算模型 – 仅探索了简单的 ℓ₂ 范数预算;未来工作可以研究更真实的约束,例如传感器掉线模式或通信延迟。
  • 多智能体交通 – 该框架假设只有一辆自动驾驶车辆;将其与其他学习智能体(如车队编队)交互的情况仍是一个开放方向。

底线:CARRL 表明,将对抗训练聚焦于 真正影响安全的少数时刻,即可在不牺牲驾驶性能的前提下,实现碰撞规避的可观提升——这一洞见可供构建稳健自动驾驶系统的开发者立即付诸实践。

作者

  • Qi Wei
  • Junchao Fan
  • Zhao Yang
  • Jianhua Wang
  • Jingkai Mao
  • Xiaolin Chang

论文信息

  • arXiv ID: 2601.01800v1
  • 类别: cs.LG, cs.AI
  • 出版日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »