[Paper] SpanVLA:高效动作桥接与负恢复样本学习用于视觉-语言-动作模型
发布: (2026年4月22日 GMT+8 01:34)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.19710v1
请提供您希望翻译的具体文本内容(例如摘要、正文、章节等),我将按照要求保留原始格式、代码块和链接,仅翻译文本部分为简体中文。
Overview
本文介绍了 SpanVLA,一种全新的端到端框架,将视觉‑语言推理与快速、基于流匹配的轨迹生成相结合,用于自动驾驶。通过将大型视觉‑语言模型(VLMs)与轻量级动作专家桥接,作者实现了显著降低的延迟,同时通过精心策划的 “negative‑recovery” 样本 教会系统从错误中恢复。
关键贡献
- Hybrid inference pipeline – 自动回归 VLM 提供高级推理,然后流匹配策略(即 “action expert”)即时将该指导转换为具体轨迹。
- Action‑bridging mechanism – 一种新颖的 “bridge”,使流匹配策略能够基于短期历史轨迹进行条件化,从而让模型在不需要自动回归生成器典型的慢速逐步解码的情况下进行前瞻规划。
- GRPO‑based post‑training – 通过通用奖励加权策略优化(Generalized Reward‑Weighted Policy Optimization,GRPO)阶段,使模型既能从正向驾驶示例中学习,也能从人为构造的负向恢复样本中学习。
- mReasoning dataset – 一个面向真实世界驾驶推理的基准,强调复杂、推理密集的场景,并包含标注的负向恢复案例。
- State‑of‑the‑art results – 在 NAVSIM v1 与 v2 上实现竞争性表现,相比纯自动回归 VLA 基线推理速度提升最高可达 5 倍。
方法论
- 视觉‑语言推理 (VLM) – 预训练的大规模 VLM 接收前置摄像头图像、地图数据和文本提示(例如,“准备左侧并线”),并生成以一系列路径点或意图标记形式表达的高层计划。
- 动作桥接 – 将 VLM 的输出输入到轻量级的 流匹配策略 中。该策略通过连续归一化流学习将 源 轨迹(近期车辆运动)映射到满足 VLM 意图的 目标 轨迹。由于映射是一键学习的,策略能够在一次前向传播中生成完整的未来轨迹。
- GRPO 后训练 – 在基础模型训练完成后,作者使用类似强化学习的目标进行微调。正样本根据安全性和舒适性指标获得奖励,负恢复样本则因不良行为受到惩罚,同时因成功恢复而获得额外奖励。这种双信号训练提升了对极端情况的鲁棒性。
- 数据集 (mReasoning) – 该数据集来源于真实驾驶日志,包含:
- 复杂推理场景(例如,模糊的车道标记、临时施工区域)。
- 负恢复对,其中驾驶员最初犯错(例如,急刹车),随后进行纠正。
数据集被划分为训练、验证和测试集,并随代码一起发布。
结果与发现
| 指标 (NAVSIM) | Autoregressive VLA | SpanVLA(Flow‑Matching) |
|---|---|---|
| 成功率 | 84.2 % | 88.7 % |
| 碰撞率 | 5.6 % | 3.2 % |
| 推理延迟 (ms) | 210 | 38 |
| 从负样本恢复率 | 61 % | 79 % |
- 延迟: 流匹配桥将推理时间降低约5倍,使得在普通汽车硬件上实现实时部署成为可能。
- 鲁棒性: GRPO 训练提升了模型识别并纠正不安全行为的能力,使得在最苛刻的测试场景中碰撞率降低超过一半。
- 定性: 可视化结果显示,与基线 VLA 模型相比,车道变换更平滑,对遮挡交叉口的处理更为自信。
实际意义
- 实时部署: 低延迟轨迹生成使得板载推理无需强大 GPU, 为中端 ADAS 系统利用 VLM 推理打开了大门。
- 安全优先训练: 通过显式学习负面恢复样本,开发者可以将“不可做”知识直接嵌入模型, 减少对大量基于规则的安全层的需求。
- 模块化集成: SpanVLA 的桥接架构可以插入现有的感知‑规划堆栈——用流匹配专家替换规划器,同时保持相同的 VLM 负责高层意图。
- 数据集效用: mReasoning 基准提供了一个现成的测试平台,供任何想要评估推理与恢复能力的 VLA 研究使用,加速开发周期。
限制与未来工作
- Domain shift: 虽然 mReasoning 多样化,但仍仅限于少数几个地理区域;在未见过的天气或道路类型条件下,性能可能下降。
- Scalability of GRPO: 后训练步骤会增加计算开销,并且需要对奖励权重进行细致调优;实现自动化可能成为一个研究方向。
- Explainability: 尽管 VLM 提供文本推理,但 flow‑matching 策略仍是一个黑箱;未来工作可以探索可解释的 flow 模型或混合符号‑神经规划器。
SpanVLA 表明,将大型视觉‑语言模型的世界知识与快速、基于 flow 的动作生成相结合,不仅是可能的,而且对下一代自动驾驶系统具有实用价值。
作者
- Zewei Zhou
- Ruining Yang
- Xuewei
- Qi
- Yiluan Guo
- Sherry X. Chen
- Tao Feng
- Kateryna Pistunova
- Yishan Shen
- Lili Su
- Jiaqi Ma
论文信息
- arXiv ID: 2604.19710v1
- 分类: cs.CV
- 出版日期: 2026年4月21日
- PDF: 下载 PDF