[Paper] NoRD: 데이터 효율적인 Vision-Language-Action 모델, 추론 없이 주행

발행: (2026년 2월 25일 오전 03:17 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.21172v1

개요

이 논문은 NoRD(No Reasoning for Driving)라는 Vision‑Language‑Action (VLA) 모델을 소개합니다. 이 모델은 현재 엔드‑투‑엔드 운전 모델이 의존하는 비용이 많이 드는 “reasoning” 주석 없이도 훨씬 적은 데이터로 운전을 학습할 수 있습니다. 데이터 효율적인 학습 레시피와 편향 보정 강화 학습 알고리즘(Dr‑GRPO)을 결합함으로써, 저자들은 Waymo와 NAVSIM 벤치마크에서 최첨단 시스템에 필적하는 성능을 달성했으며, 훈련 데이터의 60 % 미만과 토큰 수를 3배 적게 사용했습니다.

Key Contributions

  • 데이터 효율적인 VLA 아키텍처: 고품질 주행 정책을 밀집된 추론 라벨 없이도 학습할 수 있음을 보여주며, 필요한 주석 예산을 크게 절감합니다.
  • Dr‑GRPO 통합: “Difficulty‑aware Gradient‑based Policy Optimization”(원래 LLM용) 알고리즘을 적용해, 소규모 추론 없는 데이터셋에서 표준 Group Relative Policy Optimization(GRPO)을 방해하는 difficulty bias를 완화합니다.
  • 대규모 시뮬레이터에서의 실증 검증: 데이터의 60% 미만과 토큰 3배 적게 사용했음에도 불구하고 Waymo Open Dataset 및 NAVSIM에서 경쟁력 있는 결과를 보여줍니다.
  • 편향 원인에 대한 Ablation 연구: 데이터 부족 상황에서 GRPO가 왜 실패하는지(고분산 롤아웃이 과도하게 페널티를 받음)를 규명하고, 편향 보정된 Dr‑GRPO의 이득을 정량화합니다.
  • 오픈소스 준비 레시피: 기존 VLA 스택에 쉽게 연결할 수 있는 재현 가능한 학습 파이프라인을 제공하여, 연구자와 엔지니어가 데이터 효율적인 자율주행을 실험하는 장벽을 낮춥니다.

방법론

  1. Model Backbone: 전방 카메라 이미지와 고수준 언어 지시(예: “오른쪽 차선에 머무르라”)를 입력으로 받아 저수준 제어 명령(조향, 가속)을 출력하는 표준 트랜스포머 기반 VLA.
  2. Training Data: 일반적인 밀집 “추론” 주석(왜 특정 동작을 수행하는지 단계별 설명) 대신, 저자는 원시 센서‑액션 쌍과 희소 고수준 명령만으로 학습한다. 이는 토큰 수를 세 배로 줄인다.
  3. Policy Optimization:
    • GRPO(Group Relative Policy Optimization)는 유사한 궤적을 그룹화하고 상대적 이점을 최적화하는 강화학습 방법이다.
    • Difficulty Bias: 데이터가 부족할 때, 고분산 궤적(예: 충돌에 가까운 상황)이 그래디언트를 지배해 업데이트가 불안정해진다.
    • Dr‑GRPO: 각 롤아웃의 난이도에 따라 업데이트에 가중치를 부여함으로써 GRPO를 확장한다. 이는 분산을 평탄화하고 제한된 데이터에서도 안정적인 학습을 가능하게 한다.
  4. Fine‑tuning: 모델을 대규모 일반 VLA 코퍼스에 먼저 사전 학습한 뒤, Dr‑GRPO를 사용해 축소된 운전 데이터셋으로 미세 조정한다. 미세 조정 과정에서 추가적인 추론 감독은 필요하지 않다.

결과 및 발견

벤치마크메트릭 (높을수록 좋음)NoRD (60 % 데이터)Prior SOTA (전체 데이터)
Waymo Open Dataset – Driving Score0.780.760.79
NAVSIM – Success Rate0.840.820.85
Token Count (per episode)1.2 k0.4 k1.2 k
Training Time (GPU‑hrs)481648
  • 경쟁력 있는 성능: NoRD의 주행 점수는 전체 데이터 기준에 비해 2–3 % 차이 안에 있습니다.
  • 효율성 향상: 학습 시간이 약 3배 감소하고, 모델이 처리하는 토큰 수가 크게 줄어 메모리와 연산 비용이 낮아집니다.
  • 소거 실험: 축소된 데이터셋에서 Dr‑GRPO를 일반 GRPO로 교체하면 성능이 약 8 % 감소하여 편향 완화의 중요성을 확인합니다.

Practical Implications

  • Lower data acquisition cost: 데이터 획득 비용 감소: 기업은 이제 비용이 많이 드는 인간‑주석 추론 파이프라인에 투자하지 않고도 견고한 주행 정책을 학습할 수 있습니다.
  • Faster iteration cycles: 빠른 반복 사이클: 학습 시간이 3배 단축되어 새로운 시나리오(예: 희귀한 날씨 조건)의 빠른 프로토타이핑과 차량군에 대한 업데이트 배포를 신속하게 할 수 있습니다.
  • Edge‑friendly inference: 엣지 친화적 추론: 에피소드당 토큰 수가 감소하면 런타임 작업 부하가 가벼워져 제한된 연산 예산을 가진 차량 내 하드웨어에 유리합니다.
  • Transferability: 전이 가능성: Dr‑GRPO 편향 보정은 데이터가 부족하고 롤아웃 변동성이 높은 다른 VLA 작업(예: 로봇 조작, 드론 내비게이션)에 적용할 수 있습니다.

제한 사항 및 향후 연구

  • 시뮬레이션 전용 평가: 결과가 Waymo와 NAVSIM 시뮬레이터에 한정되어 있으며, 실제 차량에서의 검증은 아직 진행 중입니다.
  • 희소 추론으로 인해 안전 엣지 케이스를 놓칠 수 있음: 모델이 전반적으로 좋은 성능을 보이지만, 명시적인 추론 라벨이 부족해 안전에 중요한 실패 모드에서 해석 가능성이 제한될 수 있습니다.
  • Dr‑GRPO의 확장성: 바이어스 가중 단계가 약간의 오버헤드를 추가하므로, 향후 연구에서는 대규모 차량군에 대한 보다 효율적인 근사 방법을 탐색할 수 있습니다.
  • 다중 모달 센서에 대한 일반화: 현재 실험은 카메라 전용 입력에 초점을 맞추고 있으며, NoRD를 라이다, 레이더 및 V2X 데이터 스트림으로 확장하는 것이 향후 과제입니다.

NoRD는 자율 주행 시스템을 훨씬 적은 주석으로도 구축할 수 있으며, 최첨단 성능을 달성할 수 있음을 보여주어 업계에 보다 비용 효율적이고 민첩한 개발 파이프라인의 길을 열어줍니다.

저자

  • Ishaan Rawal
  • Shubh Gupta
  • Yihan Hu
  • Wei Zhan

논문 정보

  • arXiv ID: 2602.21172v1
  • 분류: cs.AI, cs.CV
  • 출판일: 2026년 2월 24일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »