[Paper] LEAD:最小化学习者-专家不对称的端到端驾驶
发布: (2025年12月24日 GMT+8 02:07)
8 min read
原文: arXiv
Source: arXiv - 2512.20563v1
概述
论文 LEAD 探讨了为什么在高保真模拟器中训练的模仿学习(IL)代理在实际自主驾驶时仍会出现失误。作者指出了一个根本性的“学习者‑专家不对称”:模拟器中的专家驾驶员拥有特权信息(完美的可视性、其他代理意图的知识),而传感器受限的学生从未看到这些信息。通过缩小这一信息差距,他们将端到端驾驶性能提升到 CARLA 基准的新高度,甚至在真实世界的视觉驱动测试中取得了改进。
关键贡献
- 学习者‑专家不对称的实证分析 – 量化当专家拥有完美感知且不确定性低,而学生仅有原始摄像头/LiDAR 数据时,对模仿学习的负面影响。
- 实用干预措施以降低不对称,包括:
- 为专家加入真实的遮挡处理。
- 为学生提供更丰富的导航线索(超出单一点目标)。
- 对齐专家与学生之间的不确定性建模。
- TransFuser v6 (TFv6) – 经过上述修正的端到端架构,在所有主要 CARLA 基准上实现了最先进的闭环得分(例如 Bench2Drive 上 95 DS,Longest6 v2 与 Town13 上的得分提升超过 2 倍)。
- 跨域验证 – 将相同的感知监督整合到 sim‑to‑real 流程中,在 NAVSIM 与 Waymo Vision‑Based End‑to‑End 驾驶挑战中获得一致性提升。
- 开源发布 – 代码、数据和预训练模型均公开,可促进可复现性和进一步研究。
方法论
-
诊断不对称性
- 作者将专家的观察空间(完整的 3‑D 地图,完美检测其他代理)与学生的传感器套件(前置摄像头、LiDAR、视野受限)进行比较。
- 他们在移除专家的“特权”(例如,人工遮挡专家视野)时测量性能下降。
-
弥合差距
- 感知对齐:在专家的数据中加入真实的传感器噪声和遮挡,使其示范更贴近学生将看到的内容。
- 意图指定:向学生提供由导航图生成的短期航路点轨迹,而不是单一目标点。
- 不确定性建模:训练专家和学生预测未来动作的分布,鼓励学生应对模糊情形。
-
模型架构(TFv6)
- 基于 TransFuser 主干(多模态 transformer,融合摄像头、LiDAR 和地图输入)。
- 增加 导航编码器 用于航路点序列,以及输出动作不确定性的 置信度头。
- 使用组合损失进行训练:专家动作的模仿损失 + 感知损失(分割、深度) + 不确定性正则化。
-
评估流程
- 在 CARLA 中进行闭环驾驶测试(Bench2Drive、Longest6 v2、Town13)。
- 在 NAVSIM 和 Waymo Vision‑Based 基准上进行仿真到真实的迁移实验,使用相同的感知监督权重。
结果与发现
| 基准 | 指标(越高越好) | TFv6 分数 | 先前 SOTA | 改进 |
|---|---|---|---|---|
| Bench2Drive (CARLA) | 驾驶评分 (DS) | 95 | 78 | +22 % |
| Longest6 v2 (CARLA) | 成功率 | 92 % | 44 % | >2× |
| Town13 (CARLA) | 完成率 | 88 % | 41 % | >2× |
| NAVSIM (sim‑to‑real) | 路线完成度 | — | — | +8 % over baseline |
| Waymo Vision‑Based | 碰撞率 ↓ | 0.12 % | 0.27 % | ↓ |
- 移除专家特权(添加遮挡)会使专家自身的表现下降约 15 %,这证实了不对称性是一个真实的瓶颈。
- 感知监督的 TFv6 模型学习到了更鲁棒的视觉特征,从而在仿真和真实世界数据集中都显著减少了离路事件和碰撞。
实际意义
- 更好的数据生成管道:在创建合成专家示例时,刻意注入真实的传感器噪声和遮挡,使数据更“对学生友好”。
- 更丰富的导航输入:提供一个短的航路点视野(而不是单一目标)是一种低成本的方式,能够显著提升自动驾驶堆栈的模仿学习稳定性。
- 具备不确定性感知的策略:训练模型输出置信度估计,帮助下游安全模块(例如后备规划器)做出更智能的决策。
- 仿真到真实的迁移:同样的感知监督不仅提升仿真表现,也能提升真实世界基准,暗示对构建基于视觉的驾驶堆栈的公司而言,可采用统一的训练方案。
- 开源工具包:已发布的 LEAD 仓库可以直接接入现有的端到端管道(如 CARLA、AirSim),快速评估学习者‑专家对齐对任何新模型的影响。
限制与未来工作
- 该研究局限于 CARLA 模拟器和两个真实世界基准;在更广泛的传感器套件(雷达、事件相机)上的验证仍有待开展。
- 导航编码器依赖预先计算的路径点图;动态路线变化(例如考虑交通的重新规划)尚未探索。
- 不确定性建模仅限于简单的高斯头部;更丰富的分布预测(混合模型、贝叶斯网络)可能进一步提升安全性。
- 将该方法扩展到全尺度城市级仿真和长时段驾驶将需要更高效的数据管道,甚至可能需要课程学习策略。
LEAD 表明,高性能模仿学习驾驶员的“秘密酱汁”并非仅仅是更多数据——而是 让专家的视角足够真实,以便学生真正能够从中学习。通过对齐感知、意图和不确定性,作者为端到端自动驾驶设立了新的基准,并为希望弥合仿真到现实差距的开发者提供了实用的路线图。
作者
- Long Nguyen
- Micha Fauth
- Bernhard Jaeger
- Daniel Dauner
- Maximilian Igl
- Andreas Geiger
- Kashyap Chitta
论文信息
- arXiv ID: 2512.20563v1
- 分类: cs.CV, cs.AI, cs.LG, cs.RO
- 发表时间: 2025年12月23日
- PDF: 下载 PDF