[Paper] NoRD：一种数据高效的视觉-语言-动作模型，可在无需推理的情况下驾驶

发布: 3天前 (2026年2月25日 GMT+8 02:17)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.21172v1

概述

本文介绍了 NoRD（No Reasoning for Driving），一种视觉‑语言‑动作（VLA）模型，能够在使用更少数据且无需当前端到端驾驶模型依赖的昂贵“推理”标注的情况下学习驾驶。通过将数据高效的训练配方与偏差校正的强化学习算法（Dr‑GRPO）相结合，作者在 Waymo 和 NAVSIM 基准上实现了与最先进系统相媲美的性能，同时使用的训练数据不足 60 %，且所需的标记 token 数量减少了三倍。

关键贡献

Data‑efficient VLA architecture: 证明即使没有密集的推理标签，也能学习高质量的驾驶策略，从而显著降低所需的标注预算。
Dr‑GRPO integration: 将“Difficulty‑aware Gradient‑based Policy Optimization”（最初用于 LLM）算法移植到小规模、无推理数据集上，以缓解阻碍标准 Group Relative Policy Optimization（GRPO）的 difficulty bias。
Empirical validation on large‑scale simulators: 尽管仅使用 < 60 % 的数据和 3× 更少的 token，仍在 Waymo Open Dataset 和 NAVSIM 上取得竞争力的结果。
Ablation study of bias sources: 阐明 GRPO 在数据稀缺情况下失效的原因（高方差 rollout 被过度惩罚），并量化经偏差校正的 Dr‑GRPO 所带来的提升。
Open‑source‑ready recipe: 提供可复现的训练流水线，可直接嵌入现有 VLA 框架，降低研究人员和工程师在数据高效自动驾驶领域进行实验的门槛。

方法论

模型骨干：一个标准的基于 Transformer 的 VLA，接收前置摄像头图像、高层语言指令（例如“保持在右车道”），并输出低层控制指令（转向、油门）。
训练数据：作者不使用常见的密集“推理”标注（逐步解释为何采取某个动作），而是使用原始传感器‑动作对加上稀疏的高层指令。这将 token 数量降低了三倍。
策略优化：
- GRPO（Group Relative Policy Optimization）是一种强化学习方法，将相似轨迹分组并优化相对优势。
- 难度偏置：当数据稀缺时，高方差轨迹（例如接近碰撞的情形）会主导梯度，导致更新不稳定。
- Dr‑GRPO：通过根据每个 rollout 的难度对更新加权，扩展了 GRPO，有效平滑方差，使得在有限数据下也能实现稳定学习。
微调：模型首先在大规模通用 VLA 语料上进行预训练，然后使用 Dr‑GRPO 在缩减后的驾驶数据集上进行微调。微调过程中不需要额外的推理监督。

结果与发现

基准	指标（越大越好）	NoRD（60 % 数据）	先前最佳（完整数据）
Waymo Open Dataset – Driving Score	0.78	0.76	0.79
NAVSIM – Success Rate	0.84	0.82	0.85
Token Count (per episode)	1.2 k	0.4 k	1.2 k
Training Time (GPU‑hrs)	48	16	48

竞争性能：NoRD 的驾驶得分与完整数据基线相差 2–3 %。
效率提升：训练时间降低约 3 倍，模型处理的 token 大幅减少，从而降低内存和计算成本。
消融实验：在缩减数据集上将 Dr‑GRPO 替换为普通 GRPO，性能下降约 8 %，验证了偏差缓解的重要性。

实际意义

降低数据获取成本：公司现在可以在不投入昂贵、人工标注推理流水线的情况下，训练出鲁棒的驾驶策略。
更快的迭代周期：训练时间缩短 3 倍，使得对新场景（例如罕见天气条件）的快速原型设计以及对车队的更新部署更为迅速。
适合边缘推理：每个回合使用的 token 更少，运行时工作负载更轻，对计算资源受限的车载硬件有利。
可迁移性：Dr‑GRPO 偏差校正可应用于其他 VLA 任务（如机器人操作、无人机导航），这些任务数据稀缺且 rollout 方差高。

限制与未来工作

仅仿真评估：结果仅限于 Waymo 和 NAVSIM 仿真平台；在真实车辆上的验证仍待完成。
稀疏推理可能遗漏安全边缘案例：虽然模型整体表现良好，但缺乏显式推理标签可能限制在安全关键失效模式下的可解释性。
Dr‑GRPO 的可扩展性：偏置加权步骤会带来适度的开销；未来工作可以探索更高效的近似方法，以适用于大规模车队。
对多模态传感器的泛化：当前实验仅聚焦于摄像头输入；将 NoRD 扩展到激光雷达、雷达和 V2X 数据流仍是一个开放方向。

NoRD 表明，自动驾驶系统可以在显著减少标注的前提下仍实现最先进的性能，为行业提供了更具成本效益和灵活性的开发流水线。

作者

Ishaan Rawal
Shubh Gupta
Yihan Hu
Wei Zhan

论文信息

arXiv ID: 2602.21172v1
分类: cs.AI, cs.CV
发表时间: 2026年2月24日
PDF: 下载 PDF

[Paper] NoRD：一种数据高效的视觉-语言-动作模型，可在无需推理的情况下驾驶

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] ManifoldGD：免训练层次流形引导用于基于扩散的数据集蒸馏

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉