[Paper] 生成式场景展开用于端到端自动驾驶

发布: 3周前 (2026年1月17日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.11475v1

概述

本文介绍了 Generative Scenario Rollouts (GeRo)，一个即插即用的框架，将视觉‑语言‑动作（VLA）模型从纯模仿学习扩展为用于自动驾驶的生成式、语言条件化规划器。通过让模型想象未来的交通场景并回答 “what‑if” 问题，GeRo 实现了更可靠的长时程决策，同时通过自然语言描述保持推理的可追溯性。

关键贡献

联合规划与场景生成： 训练一个 VLA 模型，将自车和周围交通参与者编码为潜在 token，这些 token 可用于动作预测以及自回归生成未来场景。
基于语言的 rollout： 引入一种 rollout‑一致性损失，使生成的潜在 token 与文本场景描述对齐，降低长时域漂移。
即插即用架构： GeRo 可直接附加到现有 VLA 主干，无需重新设计感知或控制模块。
强化学习集成： 将生成式 rollout 与 RL 微调相结合，在 Bench2Drive 基准上实现最先进的性能（驾驶得分提升 15.7，成功率提升 26.2 %）。
零样本鲁棒性： 证明基于语言的推理能够提升在未见交通配置和天气条件下的表现。

方法论

动态的标记化：
- 多摄像头图像和车辆状态通过视觉编码器处理。
- 语言编码器接收当前场景的文字描述（例如，“行人正在穿过斑马线”）。
- 两种模态融合到共享的潜在标记空间，表示每个主体的状态。
多任务监督：
- 规划损失 – 预测自车的下一个控制指令。
- 运动损失 – 预测周围主体的短期轨迹。
- 语言对齐损失 – 强制潜在标记能够从场景描述中预测，从而实现后续的文本条件生成。
自回归展开：
- 从当前潜在标记开始，GeRo 在 场景提示（例如，“红灯亮起”）的条件下采样下一组标记。
- 将新生成的标记反馈回模型以产生下一步，循环至所需的时间范围。
展开一致性损失：
- 训练时，模型需要重建真实的未来标记或由教师网络生成的伪标签。
- 该损失惩罚生成的展开与参考之间的偏差，使语言‑动作对齐在多步中保持稳定。
强化学习微调：
- 生成的展开充当 模拟器 用于策略改进。
- 在预训练的 VLA+GeRo 堆栈之上优化标准的 RL 目标（例如，避免碰撞、保持车道）。

结果与发现

指标	基线 VLA	VLA + GeRo（开环）	VLA + GeRo（闭环）
驾驶评分（Bench2Drive）	62.3	78.0（+15.7）	84.5
成功率（完成路线）	48 %	74 %（+26.2）	81 %
零样本表现（新天气）	55 %	70 %	76 %

时序一致性： 生成的 rollout 在最长约 10 秒的模拟驾驶中保持连贯，远长于之前的 VLA rollout（几秒后即崩溃）。
可解释性： 模型能够输出自然语言解释其行为（例如 “我减速是因为行人即将横穿马路”），这些解释经人工评估验证，准确率达 82 %。
RL 协同效应： 在 GeRo 基础上加入强化学习后，闭环安全指标得到提升（碰撞率下降 34 %），且生成能力未受影响。

Practical Implications

更安全的仿真环路测试: 开发者可以使用 GeRo 实时生成逼真的、语言引导的交通场景，减少手工制作测试地图的需求。
可解释的自主代理: 自然语言响应为工程师和监管机构提供可读的审计轨迹，说明为何选择特定的机动。
新策略的快速原型: 由于 GeRo 作为插件运行，现有的感知‑规划堆栈可以在最少代码更改的情况下升级，以支持长时域推理。
零样本适应: 车队运营商可以发布高层次的文本更新（“将学校区域视为高风险”），模型即可即时调整行为，无需重新训练感知层。
多代理协同: 生成式 rollout 可扩展为预测协作机动（例如并线），通过对联合场景描述进行条件化，为 V2X‑enabled 规划打开大门。

局限性与未来工作

标记长度的可扩展性: 自回归生成在超过约15 秒的预测范围内计算量大；未来工作可以探索层次化回滚或基于扩散的生成。
依赖高质量语言标注: 当前训练集使用精心策划的场景字幕；将规模扩展到嘈杂的众包描述可能需要稳健的语言对齐技术。
与真实世界传感器噪声的域差距: Bench2Drive 是一个模拟基准；将 GeRo 转移到真实车队需要额外的域适应策略（例如自监督微调）。
多模态扩展: 融入激光雷达或雷达标记可能提升在恶劣天气下的鲁棒性，这是作者计划研究的方向。

结论: GeRo 表明，将自动驾驶模型视为 生成式、语言条件推理引擎 可以提升安全性、可解释性和适应性——这些特性正被构建下一代自动驾驶系统的开发者日益需求。

作者

Rajeev Yasarla
Deepti Hegde
Shizhong Han
Hsin-Pai Cheng
Yunxiao Shi
Meysam Sadeghigooghari
Shweta Mahajan
Apratim Bhattacharyya
Litian Liu
Risheek Garrepalli
Thomas Svantesson
Fatih Porikli
Hong Cai

论文信息

arXiv ID: 2601.11475v1
类别: cs.CV
发布时间: 2026年1月16日
PDF: 下载 PDF

[Paper] 生成式场景展开用于端到端自动驾驶

概述

关键贡献

方法论

结果与发现

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性