[Paper] Robustness는 Function이며 Number가 아니다: Vision-Based Driving에서 OOD Robustness에 대한 Factorized Comprehensive Study
Source: arXiv - 2602.09018v1
Overview
이 논문은 자율주행 AI의 핵심 문제를 다룹니다: 시각 기반 주행 정책이 훈련 데이터와 다른 환경(분포 외, OOD)에서 얼마나 잘 작동하는가? 저자들은 견고성을 단일 정확도 수치로 축소하는 대신, 다섯 가지 환경 요인—장면 유형, 계절, 날씨, 시간대, 그리고 교통 요원의 구성—을 체계적으로 변화시키고, 각 요인(및 그 조합)이 VISTA 시뮬레이터에서의 폐쇄 루프 주행 성능에 어떻게 영향을 미치는지 측정합니다.
주요 기여
- Factorized OOD benchmark – 개별 및 결합된 환경 변화의 영향을 분리하는 제어된 “k‑factor” 교란 프레임워크(k = 0…3)를 도입합니다.
- Comprehensive model comparison – 완전 연결(FC), 합성곱(CNN), 그리고 Vision‑Transformer(ViT) 정책을 평가하며, 동결된 foundation‑model(FM) 특징 위에 구축된 경량 ViT 헤드도 포함합니다.
- Empirical robustness hierarchy – ViT 기반 정책이 OOD 시나리오에서 일관되게 비교 가능한 CNN/FC 모델보다 우수함을 보여주며, FM 특징 정책은 최신 수준의 성공률을 달성하지만 약간의 지연 시간 트레이드오프가 있습니다.
- Quantified factor impact – 가장 큰 단일 요인 감소를 식별합니다: 농촌 → 도시 및 낮 → 밤(~31 %씩), 그 다음은 행위자 교체(~10 %)와 보통 비(~7 %).
- Non‑additive factor interactions – 일부 요인 조합은 서로를 완화시키는 반면, 다른 조합(예: 계절 + 시간)은 악화를 가중시킴을 보여줍니다.
- Training‑data design rules – 모델을 겨울/눈 조건에 노출시키면 가장 견고한 단일 요인 성능을 얻으며, 혼합된 농촌‑여름 베이스라인이 전체 OOD 회복력을 최적으로 제공합니다.
- Scaling vs. targeted exposure – 학습 트레이스 수를 늘리면(5 → 14) 견고성이 향상됨(+11.8 % 성공)하지만, 신중히 선별된 어려운 조건 샘플은 적은 데이터로도 유사한 향상을 달성할 수 있음을 보여줍니다.
- Multi‑ID training benefits – 여러 인‑분포(ID) 환경에서 학습하면 커버리지가 확대되어(도시 OOD 성공률이 60.6 %에서 70.1 %로 상승) ID 성능은 약간만 감소합니다.
방법론
-
Environment factorization – 저자들은 다섯 개의 직교 축을 정의합니다:
- Scene: 농촌 vs. 도시 도로 레이아웃
- Season: 여름 vs. 겨울(눈)
- Weather: 맑음 vs. 보통 비
- Time: 낮 vs. 밤
- Agent mix: 다양한 교통 참여자 밀도/유형
-
k‑factor perturbations – 각 테스트마다 축을 0, 1, 2, 혹은 3개 동시에 뒤집어, 통제된 OOD 난이도 사다리를 만듭니다.
-
Simulation platform – 모든 실험은 VISTA 폐쇄‑루프 운전 시뮬레이터에서 수행되며, 정책의 조향/가속 명령을 실행하고 성공을 측정합니다(위반 없이 사전 정의된 경로를 완료).
-
Model families –
- FC: 원시 이미지 픽셀에 대한 얕은 완전 연결 네트워크.
- CNN: 고전적인 합성곱 백본(예: ResNet‑18).
- ViT: 비슷한 파라미터 수를 가진 Vision Transformer.
- FM‑feature ViT: 고정된 대규모 기반 모델(예: CLIP‑ViT)이 이미지 임베딩을 제공하고, 작은 학습 가능한 헤드(몇 개 레이어)가 임베딩을 운전 행동으로 매핑합니다.
-
Training variations – 저자들은 ID 훈련 세트의 세 차원을 조작합니다:
- Scale: 운전 트레이스 수(5 → 14).
- Diversity: 여러 장면, 계절 등을 포함.
- Temporal context: 단일 프레임 vs. 다중 프레임 입력(후자는 효과가 없었음).
-
Metrics – 주요 지표는 success rate(충돌이나 규칙 위반 없이 완료된 경로 비율)이며, 보조 지표로 추론 지연 시간이 포함됩니다.
Results & Findings
| 요인 / 조합 | 성공 감소 (ID 대비) |
|---|---|
| Rural → Urban | ~31 % |
| Day → Night | ~31 % |
| Actor swap (traffic mix) | ~10 % |
| Moderate rain | ~7 % |
| Season shift (e.g., summer → winter) | Up to ~20 % (varies) |
| Three simultaneous changes (e.g., urban + night + rain) | FM‑feature policies stay > 85 %; non‑FM drop < 50 % |
- ViT vs. CNN/FC: ViT 정책은 가장 어려운 3요인 OOD 테스트에서 성공률이 약 8–12 % 더 높아집니다.
- FM‑feature heads: 절대 OOD 성공률이 가장 높으며(3요인 테스트에서 ≈ 90 %), 추론당 약 2 ms의 추가 지연이 발생합니다.
- Temporal inputs: 이전 프레임을 추가해도 최고의 단일 프레임 ViT 베이스라인보다 향상되지 않으며, 현재 아키텍처가 이미 충분한 공간 정보를 포착하고 있음을 시사합니다.
- Training on winter/snow: 단일 요인 강인성이 가장 높으며(특히 계절 변화에 대해).
- Rural + summer baseline: 모든 요인 조합에서 평균 OOD 성능이 가장 좋습니다.
- Scaling traces: 트레이스 수를 5에서 14로 늘리면 평균 OOD 성공률이 약 11.8 포인트 상승합니다.
- Multi‑ID training: OOD 도시 시나리오에서 성능이 약 9.5 % 향상되며, ID 성능은 약 2 %만 감소합니다.
실용적 시사점
- Model selection: 생산용 자율주행 스택에서는 Vision Transformer(특히 고정된 foundation‑model 임베딩과 결합될 때)가 OOD 회복력에 실용적인 선택이며, 프레임당 몇 밀리초 정도 더 소요되더라도 괜찮다.
- Data collection strategy: 동질적인 주행 데이터를 대량으로 모으는 대신, 팀은 다양한 조건—특히 겨울/눈과 농촌/도시 장면의 혼합—을 우선시하여 주석 시간당 가장 큰 견고성 향상을 얻어야 한다.
- Testing pipelines: k‑factor 교란 프레임워크를 자율주행 소프트웨어의 CI에 통합하면, 어떤 환경 변화가 가장 큰 성능 저하를 일으키는지 자동으로 드러낸다.
- Latency budgeting: FM‑feature 정책의 약간 증가된 지연은 하드웨어 가속(예: TensorRT, ONNX Runtime)이나 별도의 엣지 프로세서에서 실행되는 경량 헤드를 사용함으로써 완화할 수 있다.
- Temporal modeling: 단순한 다중 프레임 입력이 도움이 되지 않았으므로, 개발자는 단일 프레임이 제공하는 것 이상의 동역학을 포착하려면 보다 정교한 시간적 아키텍처(예: 학습된 움직임 표현에 대한 어텐션)에 투자해야 한다.
- Robustness‑by‑design: 요인 상호작용이 비가산적이라는 점은 견고성 테스트가 개별 조건이 아니라 조합을 고려해야 함을 시사한다—안전 인증에 필수적이다.
제한 사항 및 향후 연구
- 시뮬레이터 정확도: 모든 실험은 VISTA 시뮬레이터에 국한되어 있으며, 실제 환경으로의 전이 시 추가적인 실패 모드가 드러날 수 있습니다.
- 지연 시간 트레이드오프: 논문에서는 지연 시간을 보고하지만, FM‑특징 정책에 대한 격차를 줄일 수 있는 공격적인 모델 압축이나 양자화를 탐구하지 않았습니다.
- 시간적 모델링: 단순한 다중 프레임 연결만 테스트했으며, 보다 고급의 순환 또는 트랜스포머 기반 시간 인코더는 아직 탐구되지 않았습니다.
- 요인 세분화: 다섯 축이 거칠게 정의되어 있습니다(예: “보통 비”와 “폭우”); 더 세밀한 구분은 더 미묘한 견고성 패턴을 밝혀낼 수 있습니다.
- 안전 지표: 성공률은 높은 수준의 지표이며, 향후 연구에서는 보다 정교한 안전 지표(충돌까지 시간, 측면 편차 등)를 포함할 수 있습니다.
핵심: OOD 견고성을 해석 가능한 요인으로 분해하고 최신 비전 모델을 엄격히 벤치마크함으로써, 이 연구는 보다 회복력 있는 자율주행 인식 및 제어 파이프라인 구축을 위한 구체적이고 데이터 기반의 지침을 제공합니다.
저자
- Amir Mallak
- Alaa Maalouf
논문 정보
- arXiv ID: 2602.09018v1
- 카테고리: cs.RO, cs.AI, cs.CV, cs.LG
- 출판일: 2026년 2월 9일
- PDF: PDF 다운로드