[Paper] IRL-DAL：通过 Energy-Guided Diffusion Models 实现安全自适应的自动驾驶轨迹规划

发布: 1周前 (2026年1月31日 GMT+8 02:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23266v1

概述

本文提出了 IRL‑DAL，这是一种融合逆向强化学习（IRL）、扩散模型和自适应感知的新框架，用于生成安全且高性能的自动驾驶车辆轨迹规划器。作者从专家有限状态机（FSM）控制器出发，然后通过强化学习进行微调，达到了接近人类的驾驶质量，同时显著降低了碰撞率。

模仿预训练 – 首先对策略网络进行训练，使其模仿专家 FSM 控制器，提供一个已经遵守交通规则的稳定基线。
IRL 判别器集成 – IRL 判别器评估智能体行为与专家意图的匹配程度，产生奖励信号，引导策略向专家式决策靠拢。
混合奖励 RL（PPO） – 使用近端策略优化（Proximal Policy Optimization）并采用复合奖励：
- 环境反馈（例如车道偏离、速度限制），由 条件扩散模型 提供，预测安全轨迹。
- 来自判别器的 IRL 奖励，捕捉更高层次目标，如礼让合流。
条件扩散安全监督器 – 在安全轨迹数据上训练，扩散模型根据当前场景生成候选路径；规划器选择最符合安全约束的路径。
可学习自适应掩码（LAM） – 在感知管线中应用轻量级注意力掩码；其参数与策略共同学习，使系统能够聚焦相关视觉线索（例如车辆慢行时的行人横穿）。
课程学习 – 训练从简单的直路场景逐步到复杂的城市交叉口，确保智能体逐步获得稳健行为。

基于扩散的监督器在防止“最后一分钟”变道方面尤为有效，而 LAM 在杂乱场景中将感知精度提升约 12 %，相较于静态摄像头遮罩。消融研究表明，去除 IRL 判别器或扩散监督器任一者，成功率都会下降至 80 % 以下。

在真实自动驾驶车辆中的更安全部署 – 混合奖励结构可以嵌入现有的强化学习管道，继承专家知识的同时仍然允许持续改进。
模块化安全层 – 扩散监督器充当即插即用的安全过滤器，可与任何下游规划器配合使用，提供一种基于原理的方式来强制车道保持和障碍规避，无需手工规则。
针对极端情况的自适应感知 – LAM 的速度感知注意机制可以集成到基于摄像头的感知系统中，帮助自动驾驶车辆将计算资源分配到最关键的地方（例如，减速时聚焦在人行横道上）。
基于课程的训练框架 – 两阶段课程可以轻松迁移到其他仿真平台（CARLA、LGSVL），加速在多样化交通环境中开发稳健策略。
开源基准 – 研究人员和工程师可以使用 IRL‑DAL 公开发布的代码对新规划算法进行基准测试，促进社区更快的迭代。

作者建议通过引入域随机化实现仿真到真实的迁移、优化扩散推理以及将感知堆栈扩展至多模态传感器来解决上述问题。