[Paper] RoaD: Rollouts를 Demonstrations로 활용한 Closed-Loop Supervised Fine-Tuning을 통한 Autonomous Driving Policies
발행: (2025년 12월 2일 오전 03:52 GMT+9)
10 min read
원문: arXiv
Source: arXiv - 2512.01993v1
개요
이 논문은 Rollouts as Demonstrations (RoaD) 라는 경량 기법을 소개한다. 이 기법은 자율주행 정책이 스스로 생성한 폐쇄‑루프 궤적을 추가 학습 데이터로 활용한다. 이러한 자체 생성 롤아웃을 적당량의 전문가 지도와 혼합함으로써, RoaD는 표준 행동‑클로닝 파이프라인에서 흔히 발생하는 공변량‑시프트 문제를 크게 완화하고, 강화학습에 필요한 방대한 데이터·연산 예산 없이도 더 안전하고 신뢰할 수 있는 주행을 구현한다.
주요 기여
- 무거운 RL 없이 폐쇄‑루프 지도 학습 미세조정: RoaD는 정책 자체의 롤아웃을 의사‑시연(pseudo‑demonstrations)으로 사용해, 비용이 많이 드는 보상 설계나 대규모 온‑폴리시 데이터 수집이 필요하지 않다.
- 전문가‑편향 롤아웃 생성: 가벼운 전문가 컨트롤러가 롤아웃 생성 과정에서 정책을 살짝 교정해, 생성된 궤적이 고품질 주행 행동의 분포 안에 머물도록 한다.
- 데이터 효율성: 기존 폐쇄‑루프 지도 학습(CL‑SFT) 방법과 동등하거나 더 나은 성능을 달성하면서도 전형적인 RL 접근법에 비해 몇 배에서 수십 배 적은 데이터만 사용한다.
- 넓은 적용 범위: 모듈형 파이프라인(예: 인식‑계획‑제어 스택)과 엔드‑투‑엔드 신경망 주행 모델 모두에 적용 가능하며, 두 가지 서로 다른 시뮬레이터에서 입증하였다.
- 뛰어난 안전성 향상: 고충실도 AlpaSim 벤치마크에서 RoaD는 전체 주행 점수를 41 % 상승시키고 충돌률을 54 % 감소시켰다.
방법론
- 기본 정책 시작: 인간 운전 로그를 이용한 기존의 개방‑루프 행동 클로닝으로 학습된 기본 정책을 사용한다.
- 폐쇄‑루프 롤아웃 생성: 시뮬레이션에서 기본 정책을 실행하되, 중간중간 간단한 전문가 컨트롤러(예: 규칙 기반 플래너)를 삽입해 차량 궤적을 안전하고 목표 지향적으로 부드럽게 교정한다. 이 하이브리드 실행은 정책 고유의 의사결정 특성을 유지하면서도 현실적인 궤적을 만든다.
- 롤아웃을 시연으로 취급: 이러한 하이브리드 실행에서 얻은 상태‑행동 쌍을 기록하고 원래의 지도 학습 데이터셋에 추가한다.
- 정책 미세조정: 증강된 데이터셋을 이용해 표준 지도 학습 단계를 수행함으로써, 네트워크가 폐쇄‑루프에서 이전에 저지른 오류를 교정하도록 학습한다.
- 반복(선택적): 정책이 안전한 궤적을 유지하는 능력이 향상됨에 따라 과정을 반복해 점진적으로 정책을 정제할 수 있다.
핵심 통찰은 정책 자체의 실수가 전문가에 의해 “구조”될 때 귀중한 학습 신호가 된다는 점이며, 이는 모델을 점진적으로 견고한 폐쇄‑루프 성능으로 이끄는 커리큘럼을 제공한다.
결과 및 발견
| 벤치마크 | 베이스라인 (BC) | 기존 CL‑SFT | RoaD (본 연구) |
|---|---|---|---|
| WOSAC (대규모 교통 시뮬) | – | Comparable | 동등하거나 더 나은 성능, 훨씬 적은 미세조정 샘플 |
| AlpaSim (고충실도 엔드‑투‑엔드) | 주행 점수: 0.62, 충돌: 0.18 | – | 점수: 0.88 (+41 %), 충돌: 0.08 (‑54 %) |
- 데이터 효율성: RoaD는 기존 CL‑SFT가 비슷한 안전 지표에 도달하기 위해 사용한 미세조정 데이터 양의 약 1/10만으로도 동일한 수준을 달성했다.
- 학습 시간: 이 방법은 지도 학습 영역에 머물기 때문에, 단일 GPU에서 몇 에폭만에 미세조정이 수렴한다. 반면 RL은 다중 GPU 클러스터에서 며칠이 걸리는 경우가 많다.
- 일반화: 정책은 다양한 교통 상황을 여전히 처리할 수 있었으며, 이는 전문가‑편향 롤아웃이 좁은 상황에 과도하게 맞춰지지 않았음을 시사한다.
실용적 함의
- 빠른 반복 사이클: 개발 팀은 몇 시간 수준의 시뮬레이션과 적당한 연산 예산만으로 주행 스택의 폐쇄‑루프 견고성을 향상시킬 수 있어 검증 주기가 크게 단축된다.
- 데이터 수집 비용 절감: 대규모 차량 로그를 수집하거나 비용이 많이 드는 RL 시뮬레이션을 수행하는 대신, 기존 행동‑클로닝 데이터셋을 재활용하고 저비용 규칙 기반 전문가 롤아웃으로 보강할 수 있다.
- 안전 인증 지원: 이 방법은 인간이 읽을 수 있는 시연 궤적을 생성하므로, 규정 준수 여부를 검증하기 쉬워 규제 승인 절차를 완화한다.
- 기존 파이프라인에 플러그‑인 가능: RoaD는 차별화 가능한 정책(CNN, Transformer, 모듈형 컨트롤러 등)과 호환되므로, 레거시 및 최신 자율주행 스택 모두에 바로 적용할 수 있는 미세조정 단계가 된다.
- 지속적 학습 가능성: 차량이 현장에서 (섀도우 모드 등) 전문가‑편향 롤아웃을 주기적으로 생성하고 이를 원격 미세조정에 업로드함으로써, 데이터 효율적인 평생 학습이 가능해진다.
제한점 및 향후 연구
- 합리적인 전문가에 의존: 의사‑시연의 품질은 전문가 컨트롤러가 궤적을 안전하면서도 현실적으로 유지할 수 있는 능력에 달려 있다. 부실한 전문가 설계는 정책을 최적이 아닌 행동으로 편향시킬 위험이 있다.
- 시뮬레이션‑실제 격차: 고충실도 시뮬레이터에서의 성과가 실제 주행에 그대로 적용되려면 추가적인 도메인 적응 단계가 필요할 수 있다.
- 극단적인 엣지 케이스 확장성: 드물고 안전에 치명적인 상황(예: 갑작스러운 보행자 급돌) 은 생성된 롤아웃에 충분히 포함되지 않을 수 있어, 목표 시나리오 생성과 결합한 하이브리드 접근이 요구된다.
- 미래 방향: 저자는 정책이 불확실할 때 더 많은 전문가 지도를 제공하는 적응형 전문가 가중치, 불확실성 추정을 활용해 고위험 상태에 롤아웃 생성을 집중하는 방법, 그리고 단일 차량 주행을 넘어 다중 에이전트 협업 작업으로 RoaD를 확장하는 연구를 제안한다.
저자
- Guillermo Garcia‑Cobo
- Maximilian Igl
- Peter Karkus
- Zhejun Zhang
- Michael Watson
- Yuxiao Chen
- Boris Ivanovic
- Marco Pavone
논문 정보
- arXiv ID: 2512.01993v1
- 분류: cs.RO, cs.AI, cs.CV, cs.LG
- 발표일: 2025년 12월 1일
- PDF: Download PDF