[Paper] SpanVLA: 효율적인 액션 브리징 및 네거티브-리커버리 샘플을 통한 Vision-Language-Action 모델 학습

발행: 19시간 전 (2026년 4월 22일 AM 02:34 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.19710v1

개요

이 논문은 SpanVLA라는 새로운 엔드‑투‑엔드 프레임워크를 소개합니다. 이 프레임워크는 비전‑언어 추론을 빠른 흐름‑매칭 기반 궤적 생성과 결합하여 자율 주행에 적용합니다. 대형 비전‑언어 모델(VLM)과 경량 액션 전문가를 연결함으로써, 저자는 지연 시간을 크게 줄이는 동시에 특별히 선별된 “부정‑복구” 샘플을 사용해 시스템이 실수에서 회복하도록 학습시킵니다.

Key Contributions

Hybrid inference pipeline – 자동회귀 VLM이 고수준 추론을 제공하고, 흐름 매칭 정책(“액션 전문가”)이 그 지침을 즉시 구체적인 궤적으로 변환합니다.
Action‑bridging mechanism – 흐름 매칭 정책을 짧은 과거 궤적에 조건화하는 새로운 “브리지”로, 자동회귀 생성기에서 흔히 보이는 느린 단계별 디코딩 없이 모델이 미리 계획할 수 있게 합니다.
GRPO‑based post‑training – Generalized Reward‑Weighted Policy Optimization(GRPO) 단계로, 모델이 긍정적인 주행 예시와 의도적으로 만든 부정적인 복구 샘플 모두에서 학습할 수 있게 합니다.
mReasoning dataset – 복잡하고 추론이 많이 필요한 실제 주행 시나리오를 강조하고, 라벨이 지정된 부정 복구 사례를 포함하는 실제 주행 추론 벤치마크입니다.
State‑of‑the‑art results – NAVSIM v1 및 v2에서 경쟁력 있는 성능을 보이며, 순수 자동회귀 VLA 베이스라인에 비해 추론 속도가 최대 5배 빠릅니다.

Methodology

Vision‑Language Reasoning (VLM) – 사전 학습된 대규모 VLM이 전방 카메라 이미지, 지도 데이터, 텍스트 프롬프트(예: “좌측 차선으로 합류 준비”)를 입력받는다. 그리고 웨이포인트 시퀀스 또는 의도 토큰 형태의 고수준 계획을 생성한다.
Action Bridge – VLM의 출력은 가벼운 flow‑matching policy에 전달된다. 이 정책은 source 궤적(최근 차량 움직임)을 VLM의 의도를 만족하는 target 궤적으로 매핑하도록 연속 정규화 흐름을 이용해 학습된다. 매핑이 한 번에 학습되므로 정책은 단일 전방 패스로 전체 미래 궤적을 생성할 수 있다.
GRPO Post‑Training – 기본 모델을 학습한 뒤, 저자들은 강화 학습 스타일의 목표로 미세 조정한다. 긍정 샘플은 안전 및 승차감 지표에 비례하는 보상을 받고, 부정‑복구 샘플은 바람직하지 않은 행동에 대한 페널티와 동시에 성공적인 복구에 대한 보너스를 받는다. 이 이중 신호 학습은 엣지 케이스에 대한 강인성을 향상시킨다.
Dataset (mReasoning) – 실제 주행 로그에서 수집된 이 데이터셋은 다음을 포함한다:
- 복잡한 추론 시나리오(예: 모호한 차선 표시, 임시 공사 구역).
- 운전자가 처음에 실수(예: 급제동)를 하고 이후 이를 교정하는 부정‑복구 쌍.
  데이터셋은 학습, 검증, 테스트 세트로 나뉘며 코드와 함께 공개된다.

결과 및 발견

지표 (NAVSIM)	자기회귀 VLA	SpanVLA (흐름 매칭)
성공률	84.2 %	88.7 %
충돌률	5.6 %	3.2 %
추론 지연시간 (ms)	210	38
부정 샘플 복구	61 %	79 %

지연시간: 흐름 매칭 브리지는 추론 시간을 약 5× 감소시켜, 일반 자동차 하드웨어에서도 실시간 배포가 가능하게 합니다.
견고성: GRPO 훈련은 모델이 위험한 행동을 인식하고 수정하는 능력을 향상시켜, 가장 어려운 테스트 시나리오에서 충돌률을 절반 이상 감소시킵니다.
정성적: 시각화 결과는 기본 VLA 모델에 비해 차선 변경이 더 부드럽고 가려진 교차로를 보다 자신 있게 처리함을 보여줍니다.

Practical Implications

Real‑time deployment: 저지연 궤적 생성은 강력한 GPU 없이도 온보드 추론을 가능하게 하여, 중급 ADAS 시스템이 VLM 추론의 혜택을 받을 수 있는 길을 열어준다.
Safety‑first training: 부정 회복 샘플을 명시적으로 학습함으로써, 개발자는 “하지 말아야 할 것” 지식을 모델에 직접 삽입할 수 있어, 광범위한 규칙 기반 안전 레이어의 필요성을 줄인다.
Modular integration: SpanVLA의 브리지 아키텍처는 기존 인식‑계획 스택에 삽입될 수 있다—플래너를 흐름 매칭 전문가로 교체하면서도 고수준 의도를 위한 동일한 VLM을 유지한다.
Dataset utility: mReasoning 벤치마크는 추론 및 회복을 평가하고자 하는 모든 VLA 연구에 즉시 사용할 수 있는 테스트베드를 제공하여 개발 주기를 가속화한다.

제한 사항 및 향후 작업

도메인 이동: mReasoning은 다양하지만 여전히 몇몇 지리적 영역에만 국한되어 있어, 보지 못한 날씨나 도로 유형에서는 성능이 저하될 수 있습니다.
GRPO의 확장성: 사후 학습 단계는 계산 오버헤드를 추가하고 보상 가중치의 세심한 튜닝이 필요합니다; 이를 자동화하는 것이 연구 과제가 될 수 있습니다.
설명 가능성: VLM이 텍스트 기반 추론을 제공하지만, 흐름 매칭 정책은 여전히 블랙박스입니다; 향후 작업에서는 해석 가능한 흐름 모델이나 하이브리드 심볼릭‑신경 플래너를 탐구할 수 있습니다.

SpanVLA는 대형 비전‑언어 모델의 세계 지식을 빠른 흐름 기반 행동 생성과 결합하는 것이 가능할 뿐만 아니라 차세대 자율 주행 시스템에 실용적임을 보여줍니다.

저자

Zewei Zhou
Ruining Yang
Xuewei
Qi
Yiluan Guo
Sherry X. Chen
Tao Feng
Kateryna Pistunova
Yishan Shen
Lili Su
Jiaqi Ma

논문 정보

arXiv ID: 2604.19710v1
카테고리: cs.CV
출판일: 2026년 4월 21일
PDF: PDF 다운로드

[Paper] SpanVLA: 효율적인 액션 브리징 및 네거티브-리커버리 샘플을 통한 Vision-Language-Action 모델 학습

개요

Key Contributions

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Tstars-Tryon 1.0: 견고하고 현실적인 Virtual Try-On을 위한 다양한 패션 아이템

[Paper] 안정성의 경계에서의 일반화

[Paper] VLA Foundry: Vision-Language-Action 모델 학습을 위한 통합 프레임워크

[Paper] ReImagine: 제어 가능한 고품질 인간 비디오 생성 재고, 이미지-우선 합성을 통해