[Paper] 生成式场景展开用于端到端自动驾驶
发布: (2026年1月17日 GMT+8 01:59)
7 min read
原文: arXiv
Source: arXiv - 2601.11475v1
概述
本文介绍了 Generative Scenario Rollouts (GeRo),一个即插即用的框架,将视觉‑语言‑动作(VLA)模型从纯模仿学习扩展为用于自动驾驶的生成式、语言条件化规划器。通过让模型 想象 未来的交通场景并回答 “what‑if” 问题,GeRo 实现了更可靠的长时程决策,同时通过自然语言描述保持推理的可追溯性。
关键贡献
- 联合规划与场景生成: 训练一个 VLA 模型,将自车和周围交通参与者编码为潜在 token,这些 token 可用于动作预测 以及 自回归生成未来场景。
- 基于语言的 rollout: 引入一种 rollout‑一致性损失,使生成的潜在 token 与文本场景描述对齐,降低长时域漂移。
- 即插即用架构: GeRo 可直接附加到现有 VLA 主干,无需重新设计感知或控制模块。
- 强化学习集成: 将生成式 rollout 与 RL 微调相结合,在 Bench2Drive 基准上实现最先进的性能(驾驶得分提升 15.7,成功率提升 26.2 %)。
- 零样本鲁棒性: 证明基于语言的推理能够提升在未见交通配置和天气条件下的表现。
方法论
-
动态的标记化:
- 多摄像头图像和车辆状态通过视觉编码器处理。
- 语言编码器接收当前场景的文字描述(例如,“行人正在穿过斑马线”)。
- 两种模态融合到共享的潜在标记空间,表示每个主体的 状态。
-
多任务监督:
- 规划损失 – 预测自车的下一个控制指令。
- 运动损失 – 预测周围主体的短期轨迹。
- 语言对齐损失 – 强制潜在标记能够从场景描述中预测,从而实现后续的文本条件生成。
-
自回归展开:
- 从当前潜在标记开始,GeRo 在 场景提示(例如,“红灯亮起”)的条件下采样下一组标记。
- 将新生成的标记反馈回模型以产生下一步,循环至所需的时间范围。
-
展开一致性损失:
- 训练时,模型需要重建真实的未来标记 或 由教师网络生成的伪标签。
- 该损失惩罚生成的展开与参考之间的偏差,使语言‑动作对齐在多步中保持稳定。
-
强化学习微调:
- 生成的展开充当 模拟器 用于策略改进。
- 在预训练的 VLA+GeRo 堆栈之上优化标准的 RL 目标(例如,避免碰撞、保持车道)。
结果与发现
| 指标 | 基线 VLA | VLA + GeRo(开环) | VLA + GeRo(闭环) |
|---|---|---|---|
| 驾驶评分(Bench2Drive) | 62.3 | 78.0(+15.7) | 84.5 |
| 成功率(完成路线) | 48 % | 74 %(+26.2) | 81 % |
| 零样本表现(新天气) | 55 % | 70 % | 76 % |
- 时序一致性: 生成的 rollout 在最长约 10 秒的模拟驾驶中保持连贯,远长于之前的 VLA rollout(几秒后即崩溃)。
- 可解释性: 模型能够输出自然语言解释其行为(例如 “我减速是因为行人即将横穿马路”),这些解释经人工评估验证,准确率达 82 %。
- RL 协同效应: 在 GeRo 基础上加入强化学习后,闭环安全指标得到提升(碰撞率下降 34 %),且生成能力未受影响。
Practical Implications
- 更安全的仿真环路测试: 开发者可以使用 GeRo 实时生成逼真的、语言引导的交通场景,减少手工制作测试地图的需求。
- 可解释的自主代理: 自然语言响应为工程师和监管机构提供可读的审计轨迹,说明为何选择特定的机动。
- 新策略的快速原型: 由于 GeRo 作为插件运行,现有的感知‑规划堆栈可以在最少代码更改的情况下升级,以支持长时域推理。
- 零样本适应: 车队运营商可以发布高层次的文本更新(“将学校区域视为高风险”),模型即可即时调整行为,无需重新训练感知层。
- 多代理协同: 生成式 rollout 可扩展为预测协作机动(例如并线),通过对联合场景描述进行条件化,为 V2X‑enabled 规划打开大门。
局限性与未来工作
- 标记长度的可扩展性: 自回归生成在超过约15 秒的预测范围内计算量大;未来工作可以探索层次化回滚或基于扩散的生成。
- 依赖高质量语言标注: 当前训练集使用精心策划的场景字幕;将规模扩展到嘈杂的众包描述可能需要稳健的语言对齐技术。
- 与真实世界传感器噪声的域差距: Bench2Drive 是一个模拟基准;将 GeRo 转移到真实车队需要额外的域适应策略(例如自监督微调)。
- 多模态扩展: 融入激光雷达或雷达标记可能提升在恶劣天气下的鲁棒性,这是作者计划研究的方向。
结论: GeRo 表明,将自动驾驶模型视为 生成式、语言条件推理引擎 可以提升安全性、可解释性和适应性——这些特性正被构建下一代自动驾驶系统的开发者日益需求。
作者
- Rajeev Yasarla
- Deepti Hegde
- Shizhong Han
- Hsin-Pai Cheng
- Yunxiao Shi
- Meysam Sadeghigooghari
- Shweta Mahajan
- Apratim Bhattacharyya
- Litian Liu
- Risheek Garrepalli
- Thomas Svantesson
- Fatih Porikli
- Hong Cai
论文信息
- arXiv ID: 2601.11475v1
- 类别: cs.CV
- 发布时间: 2026年1月16日
- PDF: 下载 PDF