[Paper] IRL-DAL:通过 Energy-Guided Diffusion Models 实现安全自适应的自动驾驶轨迹规划

发布: (2026年1月31日 GMT+8 02:34)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.23266v1

概述

本文提出了 IRL‑DAL,这是一种融合逆向强化学习(IRL)、扩散模型和自适应感知的新框架,用于生成安全且高性能的自动驾驶车辆轨迹规划器。作者从专家有限状态机(FSM)控制器出发,然后通过强化学习进行微调,达到了接近人类的驾驶质量,同时显著降低了碰撞率。

关键贡献

  • 混合 IRL‑RL 训练流水线 – 结合专家模仿、IRL 判别器和基于扩散的安全监督器。
  • 条件扩散模型作为安全监督器 – 生成保持车道、避障轨迹,满足平滑性约束。
  • 可学习自适应掩码 (LAM) – 一个感知模块,根据车辆速度和周围危险动态调整视觉注意力。
  • Webots 中的两阶段课程 – 首先在简单场景上训练,然后逐步进入更复杂的交通情境,成功率达到 96 %。
  • 最先进的安全指标 – 碰撞率降低至每 1 k 仿真步 0.05 起,树立了安全自主导航的新基准。
  • 开源发布 – 代码和已训练模型公开可用,便于可重复性验证和后续研究。

方法论

  1. 模仿预训练 – 首先对策略网络进行训练,使其模仿专家 FSM 控制器,提供一个已经遵守交通规则的稳定基线。
  2. IRL 判别器集成 – IRL 判别器评估智能体行为与专家意图的匹配程度,产生奖励信号,引导策略向专家式决策靠拢。
  3. 混合奖励 RL(PPO) – 使用近端策略优化(Proximal Policy Optimization)并采用复合奖励:
    • 环境反馈(例如车道偏离、速度限制),由 条件扩散模型 提供,预测安全轨迹。
    • 来自判别器的 IRL 奖励,捕捉更高层次目标,如礼让合流。
  4. 条件扩散安全监督器 – 在安全轨迹数据上训练,扩散模型根据当前场景生成候选路径;规划器选择最符合安全约束的路径。
  5. 可学习自适应掩码(LAM) – 在感知管线中应用轻量级注意力掩码;其参数与策略共同学习,使系统能够聚焦相关视觉线索(例如车辆慢行时的行人横穿)。
  6. 课程学习 – 训练从简单的直路场景逐步到复杂的城市交叉口,确保智能体逐步获得稳健行为。

结果与发现

指标数值
成功率(完整剧集且无违规)96 %
每 1 k 仿真步的碰撞次数0.05
车道保持偏差(平均)0.12 m
平滑度(冲击)相比基线 PPO 降低 38 %

基于扩散的监督器在防止“最后一分钟”变道方面尤为有效,而 LAM 在杂乱场景中将感知精度提升约 12 %,相较于静态摄像头遮罩。消融研究表明,去除 IRL 判别器或扩散监督器任一者,成功率都会下降至 80 % 以下。

实际意义

  • 在真实自动驾驶车辆中的更安全部署 – 混合奖励结构可以嵌入现有的强化学习管道,继承专家知识的同时仍然允许持续改进。
  • 模块化安全层 – 扩散监督器充当即插即用的安全过滤器,可与任何下游规划器配合使用,提供一种基于原理的方式来强制车道保持和障碍规避,无需手工规则。
  • 针对极端情况的自适应感知 – LAM 的速度感知注意机制可以集成到基于摄像头的感知系统中,帮助自动驾驶车辆将计算资源分配到最关键的地方(例如,减速时聚焦在人行横道上)。
  • 基于课程的训练框架 – 两阶段课程可以轻松迁移到其他仿真平台(CARLA、LGSVL),加速在多样化交通环境中开发稳健策略。
  • 开源基准 – 研究人员和工程师可以使用 IRL‑DAL 公开发布的代码对新规划算法进行基准测试,促进社区更快的迭代。

限制与未来工作

  • 仅仿真验证 – 所有实验均在 Webots 仿真器中进行;实际环境的可迁移性仍有待验证。
  • 扩散采样的计算开销 – 实时生成安全轨迹会增加延迟;未来工作可探索轻量级的扩散近似或缓存策略。
  • 传感器模态受限 – 当前设置仅使用视觉输入;将 LAM 扩展为融合 LiDAR/雷达等可提升在恶劣天气下的鲁棒性。
  • IRL 判别器的可扩展性 – 随着交通场景日益复杂,判别器可能需要更丰富的状态表示,以捕捉细微的专家意图。

作者建议通过引入域随机化实现仿真到真实的迁移、优化扩散推理以及将感知堆栈扩展至多模态传感器来解决上述问题。

作者

  • Seyed Ahmad Hosseini Miangoleh
  • Amin Jalal Aghdasian
  • Farzaneh Abdollahi

论文信息

  • arXiv ID: 2601.23266v1
  • 分类: cs.RO, cs.AI
  • 发表时间: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »