[Paper] NoRD:一种数据高效的视觉-语言-动作模型,可在无需推理的情况下驾驶
发布: (2026年2月25日 GMT+8 02:17)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.21172v1
概述
本文介绍了 NoRD(No Reasoning for Driving),一种视觉‑语言‑动作(VLA)模型,能够在使用更少数据且无需当前端到端驾驶模型依赖的昂贵“推理”标注的情况下学习驾驶。通过将数据高效的训练配方与偏差校正的强化学习算法(Dr‑GRPO)相结合,作者在 Waymo 和 NAVSIM 基准上实现了与最先进系统相媲美的性能,同时使用的训练数据不足 60 %,且所需的标记 token 数量减少了三倍。
关键贡献
- Data‑efficient VLA architecture: 证明即使没有密集的推理标签,也能学习高质量的驾驶策略,从而显著降低所需的标注预算。
- Dr‑GRPO integration: 将“Difficulty‑aware Gradient‑based Policy Optimization”(最初用于 LLM)算法移植到小规模、无推理数据集上,以缓解阻碍标准 Group Relative Policy Optimization(GRPO)的 difficulty bias。
- Empirical validation on large‑scale simulators: 尽管仅使用 < 60 % 的数据和 3× 更少的 token,仍在 Waymo Open Dataset 和 NAVSIM 上取得竞争力的结果。
- Ablation study of bias sources: 阐明 GRPO 在数据稀缺情况下失效的原因(高方差 rollout 被过度惩罚),并量化经偏差校正的 Dr‑GRPO 所带来的提升。
- Open‑source‑ready recipe: 提供可复现的训练流水线,可直接嵌入现有 VLA 框架,降低研究人员和工程师在数据高效自动驾驶领域进行实验的门槛。
方法论
- 模型骨干:一个标准的基于 Transformer 的 VLA,接收前置摄像头图像、高层语言指令(例如“保持在右车道”),并输出低层控制指令(转向、油门)。
- 训练数据:作者不使用常见的密集“推理”标注(逐步解释为何采取某个动作),而是使用原始传感器‑动作对加上稀疏的高层指令。这将 token 数量降低了三倍。
- 策略优化:
- GRPO(Group Relative Policy Optimization)是一种强化学习方法,将相似轨迹分组并优化相对优势。
- 难度偏置:当数据稀缺时,高方差轨迹(例如接近碰撞的情形)会主导梯度,导致更新不稳定。
- Dr‑GRPO:通过根据每个 rollout 的难度对更新加权,扩展了 GRPO,有效平滑方差,使得在有限数据下也能实现稳定学习。
- 微调:模型首先在大规模通用 VLA 语料上进行预训练,然后使用 Dr‑GRPO 在缩减后的驾驶数据集上进行微调。微调过程中不需要额外的推理监督。
结果与发现
| 基准 | 指标(越大越好) | NoRD(60 % 数据) | 先前最佳(完整数据) |
|---|---|---|---|
| Waymo Open Dataset – Driving Score | 0.78 | 0.76 | 0.79 |
| NAVSIM – Success Rate | 0.84 | 0.82 | 0.85 |
| Token Count (per episode) | 1.2 k | 0.4 k | 1.2 k |
| Training Time (GPU‑hrs) | 48 | 16 | 48 |
- 竞争性能:NoRD 的驾驶得分与完整数据基线相差 2–3 %。
- 效率提升:训练时间降低约 3 倍,模型处理的 token 大幅减少,从而降低内存和计算成本。
- 消融实验:在缩减数据集上将 Dr‑GRPO 替换为普通 GRPO,性能下降约 8 %,验证了偏差缓解的重要性。
实际意义
- 降低数据获取成本:公司现在可以在不投入昂贵、人工标注推理流水线的情况下,训练出鲁棒的驾驶策略。
- 更快的迭代周期:训练时间缩短 3 倍,使得对新场景(例如罕见天气条件)的快速原型设计以及对车队的更新部署更为迅速。
- 适合边缘推理:每个回合使用的 token 更少,运行时工作负载更轻,对计算资源受限的车载硬件有利。
- 可迁移性:Dr‑GRPO 偏差校正可应用于其他 VLA 任务(如机器人操作、无人机导航),这些任务数据稀缺且 rollout 方差高。
限制与未来工作
- 仅仿真评估:结果仅限于 Waymo 和 NAVSIM 仿真平台;在真实车辆上的验证仍待完成。
- 稀疏推理可能遗漏安全边缘案例:虽然模型整体表现良好,但缺乏显式推理标签可能限制在安全关键失效模式下的可解释性。
- Dr‑GRPO 的可扩展性:偏置加权步骤会带来适度的开销;未来工作可以探索更高效的近似方法,以适用于大规模车队。
- 对多模态传感器的泛化:当前实验仅聚焦于摄像头输入;将 NoRD 扩展到激光雷达、雷达和 V2X 数据流仍是一个开放方向。
NoRD 表明,自动驾驶系统可以在显著减少标注的前提下仍实现最先进的性能,为行业提供了更具成本效益和灵活性的开发流水线。
作者
- Ishaan Rawal
- Shubh Gupta
- Yihan Hu
- Wei Zhan
论文信息
- arXiv ID: 2602.21172v1
- 分类: cs.AI, cs.CV
- 发表时间: 2026年2月24日
- PDF: 下载 PDF