[Paper] SpanVLA：高效动作桥接与负恢复样本学习用于视觉-语言-动作模型

发布: 2天前 (2026年4月22日 GMT+8 01:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.19710v1

请提供您希望翻译的具体文本内容（例如摘要、正文、章节等），我将按照要求保留原始格式、代码块和链接，仅翻译文本部分为简体中文。

Overview

本文介绍了 SpanVLA，一种全新的端到端框架，将视觉‑语言推理与快速、基于流匹配的轨迹生成相结合，用于自动驾驶。通过将大型视觉‑语言模型（VLMs）与轻量级动作专家桥接，作者实现了显著降低的延迟，同时通过精心策划的 “negative‑recovery” 样本教会系统从错误中恢复。

Hybrid inference pipeline – 自动回归 VLM 提供高级推理，然后流匹配策略（即 “action expert”）即时将该指导转换为具体轨迹。
Action‑bridging mechanism – 一种新颖的 “bridge”，使流匹配策略能够基于短期历史轨迹进行条件化，从而让模型在不需要自动回归生成器典型的慢速逐步解码的情况下进行前瞻规划。
GRPO‑based post‑training – 通过通用奖励加权策略优化（Generalized Reward‑Weighted Policy Optimization，GRPO）阶段，使模型既能从正向驾驶示例中学习，也能从人为构造的负向恢复样本中学习。
mReasoning dataset – 一个面向真实世界驾驶推理的基准，强调复杂、推理密集的场景，并包含标注的负向恢复案例。
State‑of‑the‑art results – 在 NAVSIM v1 与 v2 上实现竞争性表现，相比纯自动回归 VLA 基线推理速度提升最高可达 5 倍。

视觉‑语言推理 (VLM) – 预训练的大规模 VLM 接收前置摄像头图像、地图数据和文本提示（例如，“准备左侧并线”），并生成以一系列路径点或意图标记形式表达的高层计划。
动作桥接 – 将 VLM 的输出输入到轻量级的 流匹配策略 中。该策略通过连续归一化流学习将源轨迹（近期车辆运动）映射到满足 VLM 意图的目标轨迹。由于映射是一键学习的，策略能够在一次前向传播中生成完整的未来轨迹。
GRPO 后训练 – 在基础模型训练完成后，作者使用类似强化学习的目标进行微调。正样本根据安全性和舒适性指标获得奖励，负恢复样本则因不良行为受到惩罚，同时因成功恢复而获得额外奖励。这种双信号训练提升了对极端情况的鲁棒性。
数据集 (mReasoning) – 该数据集来源于真实驾驶日志，包含：
- 复杂推理场景（例如，模糊的车道标记、临时施工区域）。
- 负恢复对，其中驾驶员最初犯错（例如，急刹车），随后进行纠正。
  数据集被划分为训练、验证和测试集，并随代码一起发布。

Domain shift: 虽然 mReasoning 多样化，但仍仅限于少数几个地理区域；在未见过的天气或道路类型条件下，性能可能下降。
Scalability of GRPO: 后训练步骤会增加计算开销，并且需要对奖励权重进行细致调优；实现自动化可能成为一个研究方向。
Explainability: 尽管 VLM 提供文本推理，但 flow‑matching 策略仍是一个黑箱；未来工作可以探索可解释的 flow 模型或混合符号‑神经规划器。

SpanVLA 表明，将大型视觉‑语言模型的世界知识与快速、基于 flow 的动作生成相结合，不仅是可能的，而且对下一代自动驾驶系统具有实用价值。