[Paper] 基于模型的策略适应用于闭环端到端自动驾驶

发布: 2个月前 (2025年11月27日 GMT+8 01:01)

8 分钟阅读

原文: arXiv

Source: arXiv - 2511.21584v1

概述

本文提出了 Model‑Based Policy Adaptation (MPA)，一种插件式框架，使预训练的端到端（E2E）自动驾驶模型在实际驾驶（闭环）时更安全、更可靠。通过使用几何一致的模拟器合成 “如果‑会怎样” 的驾驶场景，并学习对原始策略进行调整，MPA 弥合了离线基准表现与真实世界鲁棒性之间的差距。

关键贡献

反事实轨迹生成： 利用高保真、几何感知的模拟器创建多样且真实的驾驶场景，这些场景在原始训练集里从未出现。
基于扩散的策略适配器： 训练一个轻量级扩散模型，对基础 E2E 策略的输出进行细化，实质上在生成的数据上“纠正”其预测。
多步 Q 值估计器： 学习一个长视野价值函数，对候选轨迹进行打分，使得在推理时能够选择最安全、最有效的计划。
在 nuScenes 上的闭环评估： 使用光真实感模拟器展示了在域内、域外以及安全关键测试中的显著提升，证明该方法超越了开放环指标。
数据规模与引导的消融实验： 展示了反事实数据量和不同推理时引导策略（如候选数量、温度）对性能的影响，为实际部署提供了可调节的“旋钮”。

方法论

从预训练的 E2E 驾驶模型开始（例如在 nuScenes 上训练的感知‑到‑控制网络）。
生成反事实驾驶数据：
- 作者构建了一个几何一致的仿真引擎，能够在保持物理合理性的前提下扰动交通参与者、道路几何和天气。
- 该引擎产生大量基础模型从未见过的 “如果‑会怎样” 轨迹。
训练基于扩散的策略适配器：
- 适配器接受基础模型的原始轨迹预测以及其若干噪声版本，然后学习在反事实数据上去噪到更安全的轨迹。
- 选择扩散模型是因为它天然支持多模态输出，并且可以条件化额外上下文（如交通密度）。
学习多步 Q 值模型：
- 另一个网络预测候选轨迹在若干未来步骤上的累计奖励（如行进进度、避免碰撞）。
- 该模型同样在模拟回滚上训练，使其具备对长期后果的感知。
推理流程：
- 适配器为当前观测生成 N 条候选轨迹。
- Q 值模型为每条候选轨迹打分，选取期望效用最高的执行。

整个流水线是模块化的：可以替换任意预训练的 E2E 策略、任意扩散架构或任意价值估计器，使 MPA 成为通用的适配层，而不是全新驾驶堆栈。

结果与发现

场景	基线 (E2E)	MPA‑适配	Δ 改进
域内闭环 (nuScenes)	0.62 成功率	0.78	+26%
域外（新城市布局）	0.48	0.71	+48%
安全关键（密集交通、突发切入）	0.35	0.62	+77%
平均碰撞率（每 100 km）	4.3	1.9	↓56%

对分布漂移的鲁棒性： 仅加入 10 k 条反事实轨迹即可提升 >20%；性能在 30–40 k 条左右趋于饱和，表明收益递减。
引导策略： 每步使用 5 条候选轨迹在延迟与安全性之间取得最佳平衡；更多候选略提升安全性，但计算开销增大。
消融实验： 移除 Q 值模型并直接选取适配器最高分轨迹，性能回落至接近基线，验证了长期评估的重要性。

实际意义

即插即用的安全层： 开发者可以在任何已有的 E2E 驾驶堆栈上挂载 MPA，而无需重新训练完整的感知‑控制管线，加速部署周期。
数据高效的鲁棒性： 与其收集昂贵的真实世界极端案例，不如在模拟器中生成合成反事实，大幅降低道路实测成本。
实时可行性： 扩散适配器和 Q 值评分器在现代 GPU 上约 30 ms 内完成，轻松满足典型自动驾驶感知‑控制回路（≈50 ms 预算）。
监管测试： 由于 MPA 通过学习的 Q 函数显式评估长期安全性，提供了可量化的指标，可用于合规审计或安全案例文档。
向其他领域的迁移： 同样的适配思路可用于机器人、无人机导航或任何需要快速领域适配的序列决策系统。

局限性与未来工作

模拟器保真度： 反事实数据的质量依赖几何一致引擎对真实物理和传感器噪声的模拟精度，任何差距都可能限制向真实世界的迁移。
扩散模型的可扩展性： 虽然本工作中的扩散适配器轻量，但在更高维度的动作空间（如完整的转向+油门曲线）上可能导致推理延迟上升。
长期信用分配： 多步 Q 值模型仅展望几秒钟；延长视野可进一步提升策略规划，但需要更复杂的价值估计方法。
真实世界验证： 实验局限于光真实感模拟器，作者指出需要在车载平台上进行实车试验，以验证在传感器噪声、执行滞后和不可预测的人类驾驶行为下的效果。

总体而言，MPA 为将强大的离线 E2E 驾驶模型转化为在真实道路上更安全、更具适应性的智能体提供了有力的方案。

作者

Haohong Lin
Yunzhi Zhang
Wenhao Ding
Jiajun Wu
Ding Zhao

论文信息

arXiv ID: 2511.21584v1
Categories: cs.RO, cs.AI
Published: November 26, 2025
PDF: Download PDF

[Paper] 基于模型的策略适应用于闭环端到端自动驾驶

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索