[Paper] 生成式场景展开用于端到端自动驾驶

发布: (2026年1月17日 GMT+8 01:59)
7 min read
原文: arXiv

Source: arXiv - 2601.11475v1

概述

本文介绍了 Generative Scenario Rollouts (GeRo),一个即插即用的框架,将视觉‑语言‑动作(VLA)模型从纯模仿学习扩展为用于自动驾驶的生成式、语言条件化规划器。通过让模型 想象 未来的交通场景并回答 “what‑if” 问题,GeRo 实现了更可靠的长时程决策,同时通过自然语言描述保持推理的可追溯性。

关键贡献

  • 联合规划与场景生成: 训练一个 VLA 模型,将自车和周围交通参与者编码为潜在 token,这些 token 可用于动作预测 以及 自回归生成未来场景。
  • 基于语言的 rollout: 引入一种 rollout‑一致性损失,使生成的潜在 token 与文本场景描述对齐,降低长时域漂移。
  • 即插即用架构: GeRo 可直接附加到现有 VLA 主干,无需重新设计感知或控制模块。
  • 强化学习集成: 将生成式 rollout 与 RL 微调相结合,在 Bench2Drive 基准上实现最先进的性能(驾驶得分提升 15.7,成功率提升 26.2 %)。
  • 零样本鲁棒性: 证明基于语言的推理能够提升在未见交通配置和天气条件下的表现。

方法论

  1. 动态的标记化:

    • 多摄像头图像和车辆状态通过视觉编码器处理。
    • 语言编码器接收当前场景的文字描述(例如,“行人正在穿过斑马线”)。
    • 两种模态融合到共享的潜在标记空间,表示每个主体的 状态
  2. 多任务监督:

    • 规划损失 – 预测自车的下一个控制指令。
    • 运动损失 – 预测周围主体的短期轨迹。
    • 语言对齐损失 – 强制潜在标记能够从场景描述中预测,从而实现后续的文本条件生成。
  3. 自回归展开:

    • 从当前潜在标记开始,GeRo 在 场景提示(例如,“红灯亮起”)的条件下采样下一组标记。
    • 将新生成的标记反馈回模型以产生下一步,循环至所需的时间范围。
  4. 展开一致性损失:

    • 训练时,模型需要重建真实的未来标记 由教师网络生成的伪标签。
    • 该损失惩罚生成的展开与参考之间的偏差,使语言‑动作对齐在多步中保持稳定。
  5. 强化学习微调:

    • 生成的展开充当 模拟器 用于策略改进。
    • 在预训练的 VLA+GeRo 堆栈之上优化标准的 RL 目标(例如,避免碰撞、保持车道)。

结果与发现

指标基线 VLAVLA + GeRo(开环)VLA + GeRo(闭环)
驾驶评分(Bench2Drive)62.378.0(+15.7)84.5
成功率(完成路线)48 %74 %(+26.2)81 %
零样本表现(新天气)55 %70 %76 %
  • 时序一致性: 生成的 rollout 在最长约 10 秒的模拟驾驶中保持连贯,远长于之前的 VLA rollout(几秒后即崩溃)。
  • 可解释性: 模型能够输出自然语言解释其行为(例如 “我减速是因为行人即将横穿马路”),这些解释经人工评估验证,准确率达 82 %。
  • RL 协同效应: 在 GeRo 基础上加入强化学习后,闭环安全指标得到提升(碰撞率下降 34 %),且生成能力未受影响。

Practical Implications

  • 更安全的仿真环路测试: 开发者可以使用 GeRo 实时生成逼真的、语言引导的交通场景,减少手工制作测试地图的需求。
  • 可解释的自主代理: 自然语言响应为工程师和监管机构提供可读的审计轨迹,说明为何选择特定的机动。
  • 新策略的快速原型: 由于 GeRo 作为插件运行,现有的感知‑规划堆栈可以在最少代码更改的情况下升级,以支持长时域推理。
  • 零样本适应: 车队运营商可以发布高层次的文本更新(“将学校区域视为高风险”),模型即可即时调整行为,无需重新训练感知层。
  • 多代理协同: 生成式 rollout 可扩展为预测协作机动(例如并线),通过对联合场景描述进行条件化,为 V2X‑enabled 规划打开大门。

局限性与未来工作

  • 标记长度的可扩展性: 自回归生成在超过约15 秒的预测范围内计算量大;未来工作可以探索层次化回滚或基于扩散的生成。
  • 依赖高质量语言标注: 当前训练集使用精心策划的场景字幕;将规模扩展到嘈杂的众包描述可能需要稳健的语言对齐技术。
  • 与真实世界传感器噪声的域差距: Bench2Drive 是一个模拟基准;将 GeRo 转移到真实车队需要额外的域适应策略(例如自监督微调)。
  • 多模态扩展: 融入激光雷达或雷达标记可能提升在恶劣天气下的鲁棒性,这是作者计划研究的方向。

结论: GeRo 表明,将自动驾驶模型视为 生成式、语言条件推理引擎 可以提升安全性、可解释性和适应性——这些特性正被构建下一代自动驾驶系统的开发者日益需求。

作者

  • Rajeev Yasarla
  • Deepti Hegde
  • Shizhong Han
  • Hsin-Pai Cheng
  • Yunxiao Shi
  • Meysam Sadeghigooghari
  • Shweta Mahajan
  • Apratim Bhattacharyya
  • Litian Liu
  • Risheek Garrepalli
  • Thomas Svantesson
  • Fatih Porikli
  • Hong Cai

论文信息

  • arXiv ID: 2601.11475v1
  • 类别: cs.CV
  • 发布时间: 2026年1月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »