[Paper] RoaD:将 Rollouts 视为 Demonstrations 用于闭环监督微调自动驾驶策略
发布: (2025年12月2日 GMT+8 02:52)
7 min read
原文: arXiv
Source: arXiv - 2512.01993v1
概述
本文提出了 Rollouts as Demonstrations (RoaD),一种轻量级技术,可将自动驾驶策略自身的闭环轨迹转化为额外的训练数据。通过将这些自生成的 rollout 与少量专家指导相混合,RoaD 大幅降低了标准行为克隆流水线中常见的协变量偏移问题,从而在不需要强化学习的大规模数据或计算预算的情况下,实现更安全、更可靠的驾驶。
关键贡献
- 无需重型 RL 的闭环监督微调: RoaD 使用策略自身的 rollout 作为伪示范,规避了昂贵的奖励工程或大规模在策略数据收集的需求。
- 专家偏置的 rollout 生成: 轻量级专家控制器在 rollout 生成过程中对策略进行微调,确保得到的轨迹仍然位于高质量驾驶行为的分布内。
- 数据效率: 在使用 比典型 RL 方法少数量级的数据 的情况下,达到或超过先前闭环监督微调(CL‑SFT)方法的性能。
- 广泛适用性: 适用于模块化流水线(如感知‑规划‑控制堆栈)和端到端神经驾驶模型,已在两个不同的仿真平台上验证。
- 显著的安全提升: 在高保真 AlpaSim 基准上,RoaD 将整体驾驶得分提升 41 %,碰撞率降低 54 %。
方法论
- 从基线策略开始:该策略通过传统的开放环行为克隆在人工驾驶日志上进行训练。
- 生成闭环 rollout: 在仿真中运行基线策略,但间歇性地注入一个简单的专家控制器(例如基于规则的规划器),轻微纠正车辆轨迹,使其朝向安全、目标导向的行为。该混合执行产生的轨迹既真实,又保留了策略自身的决策特性。
- 将 rollout 视为示范: 记录这些混合运行中的状态‑动作对,并将其加入原始监督数据集。
- 微调策略: 在扩充后的数据集上执行标准的监督学习步骤,让网络学习纠正其在闭环运行时先前犯的错误。
- 迭代(可选): 该过程可重复进行,随着策略在保持安全轨迹方面的能力提升,逐步细化模型。
核心洞见在于,策略自身的错误在被专家“拯救”后成为有价值的训练信号,形成一种课程学习,逐步推动模型实现稳健的闭环性能。
结果与发现
| 基准 | 基线 (BC) | 先前的 CL‑SFT | RoaD(本工作) |
|---|---|---|---|
| WOSAC(大规模交通仿真) | – | 可比 | 相等或更好 的性能,且微调样本远少于先前方法 |
| AlpaSim(高保真端到端) | 驾驶得分:0.62,碰撞率:0.18 | – | 得分:0.88(+41 %),碰撞率:0.08(‑54 %) |
- 数据效率: RoaD 所需的微调数据约为先前 CL‑SFT 的 1/10,便可达到相似的安全指标。
- 训练时间: 由于方法仍停留在监督学习范式,微调在单 GPU 上仅需数个 epoch 即可收敛,区别于常需多 GPU 集群数天的 RL 训练。
- 泛化能力: 策略仍能处理多样的交通场景,说明专家偏置的 rollout 并未导致对狭窄情形的过拟合。
实际意义
- 更快的迭代周期: 开发团队可以通过几小时的仿真和适度的计算资源提升闭环鲁棒性,大幅缩短验证周期。
- 降低数据采集成本: 无需收集海量车载日志或运行昂贵的 RL 仿真,只需复用已有的行为克隆数据,并用廉价的基于规则的专家 rollout 进行增补。
- 安全认证助力: 该方法生成可供检查的人类可读轨迹,便于合规审查,推动监管批准进程。
- 即插即用: RoaD 兼容任何可微分的策略(CNN、Transformer、模块化控制器),可作为现有或前沿自动驾驶堆栈的直接微调步骤。
- 持续学习的潜力: 车辆可在影子模式下定期生成专家偏置的 rollout 并上传,以实现数据高效的远程微调,支持终身学习。
局限性与未来工作
- 依赖合理的专家: 伪示范的质量取决于专家控制器在保持轨迹安全且真实方面的能力;若专家设计不佳,可能导致策略偏向次优行为。
- 仿真到真实的差距: 虽然在高保真仿真中表现突出,但将收益迁移到真实道路仍可能需要额外的领域适应技术。
- 对极端边缘案例的可扩展性: 稀有的安全关键情形(如突发行人冲出)可能在生成的 rollout 中仍然不足,建议结合有针对性的场景生成方法。
- 未来方向: 作者计划探索自适应专家加权(在策略不确定时提供更多指导)、结合不确定性估计以聚焦高风险状态的 rollout 生成,以及将 RoaD 扩展至多车协同任务超出单车驾驶的范畴。
作者
- Guillermo Garcia‑Cobo
- Maximilian Igl
- Peter Karkus
- Zhejun Zhang
- Michael Watson
- Yuxiao Chen
- Boris Ivanovic
- Marco Pavone
论文信息
- arXiv ID: 2512.01993v1
- 分类: cs.RO, cs.AI, cs.CV, cs.LG
- 发布日期: 2025 年 12 月 1 日
- PDF: Download PDF