[Paper] Any4D: 통합 피드포워드 메트릭 4D 재구성

발행: 1개월 전 (2025년 12월 12일 오전 03:57 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.10935v1

Overview

이 논문은 Any4D라는 트랜스포머 기반 아키텍처를 소개한다. Any4D는 여러 비디오 프레임으로부터 밀도 높은 메트릭 스케일 4‑D(3‑D 기하 + 모션) 장면을 직접 복원할 수 있다. 대부분의 기존 연구가 쌍별 씬 플로우를 추정하거나 희소 3‑D 포인트를 추적하는 것과 달리, Any4D는 任意 개수의 뷰에 대해 픽셀당 깊이와 모션을 예측하고 RGB‑D, IMU, 레이더 등 다양한 센서를 혼합하여 입력받을 수 있다. 그 결과, 연구 수준의 4‑D 복원과 실제 로봇공학·AR/VR 응용 사이의 격차를 메우는 빠르고 정확하며 유연한 파이프라인이 구현된다.

Key Contributions

통합 멀티‑뷰 트랜스포머: 하나의 포워드 패스로 N 프레임에 대한 밀도 높은 픽셀당 깊이와 씬‑플로우를 출력한다.
모듈형 자가 중심/외부 중심 표현: 깊이와 내부 파라미터는 각 카메라의 로컬 프레임에 유지하고, 외부 파라미터와 플로우는 전역 세계 좌표계에 표현하여 이기종 센서 데이터의 원활한 융합을 가능하게 한다.
멀티모달 지원: 동일한 네트워크가 구조적 변경 없이 RGB, RGB‑D, IMU 오도메트리, 레이더 도플러 측정을 모두 처리할 수 있다.
뛰어난 성능 향상: 최신 4‑D 방법에 비해 복원 오류가 2–3배 낮아지고 추론 속도가 최대 15배 빨라진다.
확장 가능한 설계: 입력 프레임 수에 제한이 없어 짧은 거리 AR 시나리오부터 장시간 자율 주행 시퀀스까지 모두 적용 가능하다.

Methodology

1. Input Encoding

각 뷰는 픽셀당 깊이 맵(깊이가 없을 경우 원시 RGB)과 카메라 내부 파라미터를 제공한다.
선택적인 센서 스트림(IMU 포즈, 레이더 도플러)은 동일한 퍼‑뷰 토큰 공간으로 투영된다.

2. Egocentric → Allocentric Fusion

토큰은 먼저 자가 중심 공간(로컬 카메라 좌표)에서 처리되어 고주파 기하학적 디테일을 보존한다.
가벼운 포즈‑인식 트랜스포머가 이 토큰들을 공유 외부 중심(세계) 공간으로 올려 전역 모션(씬 플로우)을 추론한다.

3. Feed‑Forward Prediction

트랜스포머는 각 뷰에 대한 밀도 깊이와 씬‑플로우 벡터를 출력한다. 이 벡터는 소스 프레임의 각 픽셀을 모든 타깃 프레임으로 매핑한다.
모델이 완전한 피드‑포워드 구조이므로 테스트 시 반복 최적화가 필요 없으며, 네트워크를 한 번만 통과하면 된다.

4. Training Objective

감독은 광도 일관성, 깊이 회귀, 플로우 부드러움 손실을 결합한다.
메트릭 포즈의 실제값이 존재할 경우, 추가 포즈 정렬 손실을 통해 전역 스케일 일관성을 강제한다.

전체 파이프라인은 퍼‑뷰 인코더 → 공유 트랜스포머 → 퍼‑뷰 디코더 스택으로 시각화될 수 있으며, 시각 및 관성/레이다 단서를 혼합한 통합 토큰 표현 위에서 동작한다.

Results & Findings

Dataset / Modality	Metric (e.g., RMSE)	Speedup vs. Prior Art
Synthetic RGB‑D (4‑view)	0.12 m (↓ 2.5×)	12× faster
Real‑world driving (RGB + IMU)	0.18 m (↓ 3×)	15× faster
Radar‑augmented night sequences	0.22 m (↓ 2×)	10× faster

정확도: Any4D는 다양한 센서 구성에서 깊이와 플로우 오류를 2–3배 지속적으로 감소시킨다.
효율성: 피드‑포워드 설계는 비용이 많이 드는 반복 정제를 없애며, 4‑view 입력에 대해 단일 RTX 3090에서 약 30 fps의 실시간 성능을 제공한다.
견고성: 보조 모달리티(예: 레이더)를 추가하면 저조도·텍스처가 부족한 장면에서 복원이 더욱 향상되어 모듈형 표현의 이점을 확인한다.

Practical Implications

로봇공학·자율주행: 엔지니어는 메트릭 스케일 3‑D 지도와 모션 필드를 실시간으로 얻어, 무거운 후처리 없이도 장애물 회피, 경로 계획, SLAM을 개선할 수 있다.
AR/VR 콘텐츠 제작: 핸드헬드 디바이스(RGB‑D 혹은 RGB + IMU만)에서 실시간 밀도 복원이 가능해져, 클라우드 의존도를 낮추고 온‑디바이스에서 몰입형 환경을 생성할 수 있다.
멀티‑센서 융합 플랫폼: 동일 모델을 서로 다른 센서 스위트를 가진 로봇에 그대로 배포할 수 있어, 소프트웨어 스택을 단순화하고 하드웨어별 맞춤 파이프라인 필요성을 감소시킨다.
엣지 배포: 추론이 단일 포워드 패스로 이루어지므로, Any4D는 엣지 AI 가속기에 최적화될 수 있어 저전력 온보드 4‑D 인식이 가능해진다.

Limitations & Future Work

메트릭 센서가 없을 때의 스케일 모호성: 순수 RGB 설정은 학습된 스케일 사전 지식에 의존한다; 깊이·IMU 데이터가 있으면 절대 메트릭 정확도가 크게 향상된다.
메모리 사용량: 많은 고해상도 프레임을 동시에 처리하면 GPU 메모리 한계를 초과할 수 있다; 저자는 계층적 토큰 샘플링을 완화책으로 제시한다.
동적 객체: 씬 플로우가 움직임을 포착하지만, 옷감과 같은 고비변형 변형은 여전히 어려우며 특수 모션 모델이 필요할 수 있다.
향후 방향: 스트리밍 비디오(온라인 업데이트) 처리, 학습된 불확실성 추정 도입, 객체 탐지·제어와 같은 다운스트림 작업과의 tighter integration 등을 탐구한다.

Authors

Jay Karhade
Nikhil Keetha
Yuchen Zhang
Tanisha Gupta
Akash Sharma
Sebastian Scherer
Deva Ramanan

Paper Information

arXiv ID: 2512.10935v1
Categories: cs.CV, cs.AI, cs.LG, cs.RO
Published: December 11, 2025
PDF: Download PDF