[Paper] YOPO-Nav: 원패스 비디오에서 3DGS 그래프를 이용한 시각적 내비게이션
Source: arXiv - 2512.09903v1
Overview
이 논문은 YOPO‑Nav라는 시각‑내비게이션 시스템을 소개한다. 이 시스템은 단 한 번의 비디오 촬영만으로 인간이 시연한 경로를 로봇이 재현할 수 있게 한다. 환경을 경량화된 3D Gaussian‑Splatting (3DGS) 모델 네트워크로 압축함으로써, 기존 로봇공학에서 주류를 이루는 무거운 매핑·플래닝 파이프라인을 우회하고, 저사양 하드웨어에서도 대규모 내비게이션이 가능하도록 만든다.
Key Contributions
- One‑Pass Spatial Encoding – 원시 탐색 비디오를 밀집 메트릭 맵 없이도 로컬 3DGS 표현들의 컴팩트한 그래프로 변환한다.
- Hierarchical Navigation Stack – 거친 위치 추정을 위한 Visual Place Recognition (VPR) 프론트‑엔드와 정밀 행동 예측을 위한 3DGS 기반 자세 정밀화를 결합한다.
- YOPO‑Campus Dataset – 4시간, 6 km 규모의 에고센트릭 비디오 컬렉션과 동기화된 로봇 제어 명령을 포함한 새로운 데이터셋을 공개하여 재현 가능한 연구를 지원한다.
- Real‑World Validation – Clearpath Jackal 로봇을 이용한 이미지‑목표 내비게이션 실험에서 여러 최신 시각‑내비게이션 베이스라인을 능가함을 입증한다.
- Open‑Source Release – 코드와 데이터셋을 공개하여 비디오 기반 내비게이션 및 씬 표현 연구의 진입 장벽을 낮춘다.
Methodology
- Data Ingestion – 단일 탐색 비디오(예: 인간이 원격 조종한 주행)를 짧은 겹치는 클립으로 분할한다.
- Local 3DGS Construction – 각 클립을 신경 방사장(NeRF) 스타일 파이프라인에 적용해 관측된 기하와 외관에 3D Gaussian을 맞추어 컴팩트한 “splat” 모델을 만든다.
- Graph Assembly – 로컬 모델들을 시간적 인접성에 따라 연결해, 노드가 자세, 시각 디스크립터, 3DGS 파라미터를 저장하는 방향 그래프를 만든다.
- Navigation Pipeline
- Coarse Localization (VPR): 현재 카메라 프레임을 입력으로 경량 CNN 기반 장소 인식 모듈이 가장 유사한 그래프 노드를 검색한다.
- Fine Pose Alignment: 검색된 노드의 3DGS를 로봇이 추정한 자세에서 렌더링하고, 실시간 이미지와 렌더링을 최적화해 자세를 정밀하게 정렬한다.
- Action Prediction: 정밀 자세와 목표 노드 정보를 입력으로 하는 작은 피드‑포워드 네트워크가 로봇을 시연 경로로 되돌리는 속도 명령을 출력한다.
전체 스택은 GPU가 장착된 온보드 컴퓨터 하나에서 실행되며, 3DGS 그래프는 킬로미터당 몇 메가바이트 수준의 메모리만 차지한다.
Results & Findings
| Metric (Image‑Goal Nav) | YOPO‑Nav | Baseline A (VPR‑Only) | Baseline B (NeRF‑Nav) |
|---|---|---|---|
| Success Rate (%) | 87 | 62 | 71 |
| SPL (Success weighted by Path Length) | 0.73 | 0.48 | 0.55 |
| Avg. Latency per Decision (ms) | 38 | 45 | 62 |
- 모든 테스트 경로에서 높은 성공률을 보였으며, 특히 순수 VPR이 어려워하는 시각적으로 반복되는 복도에서 큰 차이를 보였다.
- 경량 3DGS 표현 덕분에 낮은 지연시간을 달성했으며(전체 NeRF 대비 수십 배 작은 크기).
- 조명 변화에 대한 강인성: Gaussian splat은 기하와 외관을 동시에 포착해 시연 비디오와 테스트 실행 간 조명이 달라져도 신뢰할 수 있는 정렬을 가능하게 한다.
Practical Implications
- 새 현장 빠른 배포 – 인간이 한 번만 걸어다니면 내비게이션이 초기화되므로, 노동 집약적인 SLAM 매핑이 필요 없다.
- 엣지‑친화 로봇 – 컴팩트한 그래프가 일반 임베디드 플랫폼의 RAM에 여유롭게 들어가, 대형 실내·실외 공간에서 자율 배달, 점검, 보안 로봇이 동작할 수 있다.
- 기존 비디오 아카이브 재활용 – 대시캠 영상이 축적된 기업은 새로운 센서 데이터를 수집하지 않고도 해당 영상을 내비게이션 그래프로 전환할 수 있다.
- 유지보수 간소화 – 환경이 바뀔 때(예: 가구 이동) 해당 구간의 그래프 노드만 새로 촬영해 업데이트하면 전체 재구축이 필요하지 않다.
Limitations & Future Work
- 정적 씬 가정 – YOPO‑Nav는 기본 기하가 대체로 일정하다고 가정한다; 동적 장애물은 지도 자체가 아니라 반응형 컨트롤러로만 처리한다.
- 시각적 겹침 의존성 – 매우 희박하거나 심하게 가려진 비디오 패스는 그래프가 단절될 수 있어 커버리지가 제한된다.
- 다층 건물 확장성 – 현재 그래프 연결은 선형 시간 복잡도를 가지며, 향후 계층적 클러스터링 및 층간 단축 경로 탐색을 연구할 예정이다.
- 학습 기반 행동 모듈 – 현재 제어 예측기는 단순하므로, 강화학습 기반 미세조정을 도입하면 복잡한 공간에서의 민첩성을 향상시킬 수 있다.
전반적으로 YOPO‑Nav는 “비디오‑우선” 로봇 내비게이션을 실현하는 실용적인 경로를 제시한다. 일상적인 영상 데이터를 가볍고 정확한 지도 형태로 전환해 실제 현장에 바로 적용할 수 있다.
Authors
- Ryan Meegan
- Adam D’Souza
- Bryan Bo Cao
- Shubham Jain
- Kristin Dana
Paper Information
- arXiv ID: 2512.09903v1
- Categories: cs.RO, cs.CV
- Published: December 10, 2025
- PDF: Download PDF