[Paper] NoRD:一种数据高效的视觉-语言-动作模型,可在无需推理的情况下驾驶

发布: (2026年2月25日 GMT+8 02:17)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.21172v1

概述

本文介绍了 NoRD(No Reasoning for Driving),一种视觉‑语言‑动作(VLA)模型,能够在使用更少数据且无需当前端到端驾驶模型依赖的昂贵“推理”标注的情况下学习驾驶。通过将数据高效的训练配方与偏差校正的强化学习算法(Dr‑GRPO)相结合,作者在 Waymo 和 NAVSIM 基准上实现了与最先进系统相媲美的性能,同时使用的训练数据不足 60 %,且所需的标记 token 数量减少了三倍。

关键贡献

  • Data‑efficient VLA architecture: 证明即使没有密集的推理标签,也能学习高质量的驾驶策略,从而显著降低所需的标注预算。
  • Dr‑GRPO integration: 将“Difficulty‑aware Gradient‑based Policy Optimization”(最初用于 LLM)算法移植到小规模、无推理数据集上,以缓解阻碍标准 Group Relative Policy Optimization(GRPO)的 difficulty bias
  • Empirical validation on large‑scale simulators: 尽管仅使用 < 60 % 的数据和 3× 更少的 token,仍在 Waymo Open Dataset 和 NAVSIM 上取得竞争力的结果。
  • Ablation study of bias sources: 阐明 GRPO 在数据稀缺情况下失效的原因(高方差 rollout 被过度惩罚),并量化经偏差校正的 Dr‑GRPO 所带来的提升。
  • Open‑source‑ready recipe: 提供可复现的训练流水线,可直接嵌入现有 VLA 框架,降低研究人员和工程师在数据高效自动驾驶领域进行实验的门槛。

方法论

  1. 模型骨干:一个标准的基于 Transformer 的 VLA,接收前置摄像头图像、高层语言指令(例如“保持在右车道”),并输出低层控制指令(转向、油门)。
  2. 训练数据:作者不使用常见的密集“推理”标注(逐步解释为何采取某个动作),而是使用原始传感器‑动作对加上稀疏的高层指令。这将 token 数量降低了三倍。
  3. 策略优化
    • GRPO(Group Relative Policy Optimization)是一种强化学习方法,将相似轨迹分组并优化相对优势。
    • 难度偏置:当数据稀缺时,高方差轨迹(例如接近碰撞的情形)会主导梯度,导致更新不稳定。
    • Dr‑GRPO:通过根据每个 rollout 的难度对更新加权,扩展了 GRPO,有效平滑方差,使得在有限数据下也能实现稳定学习。
  4. 微调:模型首先在大规模通用 VLA 语料上进行预训练,然后使用 Dr‑GRPO 在缩减后的驾驶数据集上进行微调。微调过程中不需要额外的推理监督。

结果与发现

基准指标(越大越好)NoRD(60 % 数据)先前最佳(完整数据)
Waymo Open Dataset – Driving Score0.780.760.79
NAVSIM – Success Rate0.840.820.85
Token Count (per episode)1.2 k0.4 k1.2 k
Training Time (GPU‑hrs)481648
  • 竞争性能:NoRD 的驾驶得分与完整数据基线相差 2–3 %。
  • 效率提升:训练时间降低约 3 倍,模型处理的 token 大幅减少,从而降低内存和计算成本。
  • 消融实验:在缩减数据集上将 Dr‑GRPO 替换为普通 GRPO,性能下降约 8 %,验证了偏差缓解的重要性。

实际意义

  • 降低数据获取成本:公司现在可以在不投入昂贵、人工标注推理流水线的情况下,训练出鲁棒的驾驶策略。
  • 更快的迭代周期:训练时间缩短 3 倍,使得对新场景(例如罕见天气条件)的快速原型设计以及对车队的更新部署更为迅速。
  • 适合边缘推理:每个回合使用的 token 更少,运行时工作负载更轻,对计算资源受限的车载硬件有利。
  • 可迁移性:Dr‑GRPO 偏差校正可应用于其他 VLA 任务(如机器人操作、无人机导航),这些任务数据稀缺且 rollout 方差高。

限制与未来工作

  • 仅仿真评估:结果仅限于 Waymo 和 NAVSIM 仿真平台;在真实车辆上的验证仍待完成。
  • 稀疏推理可能遗漏安全边缘案例:虽然模型整体表现良好,但缺乏显式推理标签可能限制在安全关键失效模式下的可解释性。
  • Dr‑GRPO 的可扩展性:偏置加权步骤会带来适度的开销;未来工作可以探索更高效的近似方法,以适用于大规模车队。
  • 对多模态传感器的泛化:当前实验仅聚焦于摄像头输入;将 NoRD 扩展到激光雷达、雷达和 V2X 数据流仍是一个开放方向。

NoRD 表明,自动驾驶系统可以在显著减少标注的前提下仍实现最先进的性能,为行业提供了更具成本效益和灵活性的开发流水线。

作者

  • Ishaan Rawal
  • Shubh Gupta
  • Yihan Hu
  • Wei Zhan

论文信息

  • arXiv ID: 2602.21172v1
  • 分类: cs.AI, cs.CV
  • 发表时间: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »