[Paper] RoaD:将 Rollouts 视为 Demonstrations 用于闭环监督微调自动驾驶策略

发布: (2025年12月2日 GMT+8 02:52)
7 min read
原文: arXiv

Source: arXiv - 2512.01993v1

概述

本文提出了 Rollouts as Demonstrations (RoaD),一种轻量级技术,可将自动驾驶策略自身的闭环轨迹转化为额外的训练数据。通过将这些自生成的 rollout 与少量专家指导相混合,RoaD 大幅降低了标准行为克隆流水线中常见的协变量偏移问题,从而在不需要强化学习的大规模数据或计算预算的情况下,实现更安全、更可靠的驾驶。

关键贡献

  • 无需重型 RL 的闭环监督微调: RoaD 使用策略自身的 rollout 作为伪示范,规避了昂贵的奖励工程或大规模在策略数据收集的需求。
  • 专家偏置的 rollout 生成: 轻量级专家控制器在 rollout 生成过程中对策略进行微调,确保得到的轨迹仍然位于高质量驾驶行为的分布内。
  • 数据效率: 在使用 比典型 RL 方法少数量级的数据 的情况下,达到或超过先前闭环监督微调(CL‑SFT)方法的性能。
  • 广泛适用性: 适用于模块化流水线(如感知‑规划‑控制堆栈)和端到端神经驾驶模型,已在两个不同的仿真平台上验证。
  • 显著的安全提升: 在高保真 AlpaSim 基准上,RoaD 将整体驾驶得分提升 41 %,碰撞率降低 54 %

方法论

  1. 从基线策略开始:该策略通过传统的开放环行为克隆在人工驾驶日志上进行训练。
  2. 生成闭环 rollout: 在仿真中运行基线策略,但间歇性地注入一个简单的专家控制器(例如基于规则的规划器),轻微纠正车辆轨迹,使其朝向安全、目标导向的行为。该混合执行产生的轨迹既真实,又保留了策略自身的决策特性。
  3. 将 rollout 视为示范: 记录这些混合运行中的状态‑动作对,并将其加入原始监督数据集。
  4. 微调策略: 在扩充后的数据集上执行标准的监督学习步骤,让网络学习纠正其在闭环运行时先前犯的错误。
  5. 迭代(可选): 该过程可重复进行,随着策略在保持安全轨迹方面的能力提升,逐步细化模型。

核心洞见在于,策略自身的错误在被专家“拯救”后成为有价值的训练信号,形成一种课程学习,逐步推动模型实现稳健的闭环性能。

结果与发现

基准基线 (BC)先前的 CL‑SFTRoaD(本工作)
WOSAC(大规模交通仿真)可比相等或更好 的性能,且微调样本远少于先前方法
AlpaSim(高保真端到端)驾驶得分:0.62,碰撞率:0.18得分:0.88(+41 %)碰撞率:0.08(‑54 %)
  • 数据效率: RoaD 所需的微调数据约为先前 CL‑SFT 的 1/10,便可达到相似的安全指标。
  • 训练时间: 由于方法仍停留在监督学习范式,微调在单 GPU 上仅需数个 epoch 即可收敛,区别于常需多 GPU 集群数天的 RL 训练。
  • 泛化能力: 策略仍能处理多样的交通场景,说明专家偏置的 rollout 并未导致对狭窄情形的过拟合。

实际意义

  • 更快的迭代周期: 开发团队可以通过几小时的仿真和适度的计算资源提升闭环鲁棒性,大幅缩短验证周期。
  • 降低数据采集成本: 无需收集海量车载日志或运行昂贵的 RL 仿真,只需复用已有的行为克隆数据,并用廉价的基于规则的专家 rollout 进行增补。
  • 安全认证助力: 该方法生成可供检查的人类可读轨迹,便于合规审查,推动监管批准进程。
  • 即插即用: RoaD 兼容任何可微分的策略(CNN、Transformer、模块化控制器),可作为现有或前沿自动驾驶堆栈的直接微调步骤。
  • 持续学习的潜力: 车辆可在影子模式下定期生成专家偏置的 rollout 并上传,以实现数据高效的远程微调,支持终身学习。

局限性与未来工作

  • 依赖合理的专家: 伪示范的质量取决于专家控制器在保持轨迹安全且真实方面的能力;若专家设计不佳,可能导致策略偏向次优行为。
  • 仿真到真实的差距: 虽然在高保真仿真中表现突出,但将收益迁移到真实道路仍可能需要额外的领域适应技术。
  • 对极端边缘案例的可扩展性: 稀有的安全关键情形(如突发行人冲出)可能在生成的 rollout 中仍然不足,建议结合有针对性的场景生成方法。
  • 未来方向: 作者计划探索自适应专家加权(在策略不确定时提供更多指导)、结合不确定性估计以聚焦高风险状态的 rollout 生成,以及将 RoaD 扩展至多车协同任务超出单车驾驶的范畴。

作者

  • Guillermo Garcia‑Cobo
  • Maximilian Igl
  • Peter Karkus
  • Zhejun Zhang
  • Michael Watson
  • Yuxiao Chen
  • Boris Ivanovic
  • Marco Pavone

论文信息

  • arXiv ID: 2512.01993v1
  • 分类: cs.RO, cs.AI, cs.CV, cs.LG
  • 发布日期: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »