[Paper] Any4D: 통합 피드포워드 메트릭 4D 재구성

발행: (2025년 12월 12일 오전 03:57 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10935v1

Overview

이 논문은 Any4D라는 트랜스포머 기반 아키텍처를 소개한다. Any4D는 여러 비디오 프레임으로부터 밀도 높은 메트릭 스케일 4‑D(3‑D 기하 + 모션) 장면을 직접 복원할 수 있다. 대부분의 기존 연구가 쌍별 씬 플로우를 추정하거나 희소 3‑D 포인트를 추적하는 것과 달리, Any4D는 任意 개수의 뷰에 대해 픽셀당 깊이와 모션을 예측하고 RGB‑D, IMU, 레이더 등 다양한 센서를 혼합하여 입력받을 수 있다. 그 결과, 연구 수준의 4‑D 복원과 실제 로봇공학·AR/VR 응용 사이의 격차를 메우는 빠르고 정확하며 유연한 파이프라인이 구현된다.

Key Contributions

  • 통합 멀티‑뷰 트랜스포머: 하나의 포워드 패스로 N 프레임에 대한 밀도 높은 픽셀당 깊이와 씬‑플로우를 출력한다.
  • 모듈형 자가 중심/외부 중심 표현: 깊이와 내부 파라미터는 각 카메라의 로컬 프레임에 유지하고, 외부 파라미터와 플로우는 전역 세계 좌표계에 표현하여 이기종 센서 데이터의 원활한 융합을 가능하게 한다.
  • 멀티모달 지원: 동일한 네트워크가 구조적 변경 없이 RGB, RGB‑D, IMU 오도메트리, 레이더 도플러 측정을 모두 처리할 수 있다.
  • 뛰어난 성능 향상: 최신 4‑D 방법에 비해 복원 오류가 2–3배 낮아지고 추론 속도가 최대 15배 빨라진다.
  • 확장 가능한 설계: 입력 프레임 수에 제한이 없어 짧은 거리 AR 시나리오부터 장시간 자율 주행 시퀀스까지 모두 적용 가능하다.

Methodology

1. Input Encoding

  • 각 뷰는 픽셀당 깊이 맵(깊이가 없을 경우 원시 RGB)과 카메라 내부 파라미터를 제공한다.
  • 선택적인 센서 스트림(IMU 포즈, 레이더 도플러)은 동일한 퍼‑뷰 토큰 공간으로 투영된다.

2. Egocentric → Allocentric Fusion

  • 토큰은 먼저 자가 중심 공간(로컬 카메라 좌표)에서 처리되어 고주파 기하학적 디테일을 보존한다.
  • 가벼운 포즈‑인식 트랜스포머가 이 토큰들을 공유 외부 중심(세계) 공간으로 올려 전역 모션(씬 플로우)을 추론한다.

3. Feed‑Forward Prediction

  • 트랜스포머는 각 뷰에 대한 밀도 깊이씬‑플로우 벡터를 출력한다. 이 벡터는 소스 프레임의 각 픽셀을 모든 타깃 프레임으로 매핑한다.
  • 모델이 완전한 피드‑포워드 구조이므로 테스트 시 반복 최적화가 필요 없으며, 네트워크를 한 번만 통과하면 된다.

4. Training Objective

  • 감독은 광도 일관성, 깊이 회귀, 플로우 부드러움 손실을 결합한다.
  • 메트릭 포즈의 실제값이 존재할 경우, 추가 포즈 정렬 손실을 통해 전역 스케일 일관성을 강제한다.

전체 파이프라인은 퍼‑뷰 인코더 → 공유 트랜스포머 → 퍼‑뷰 디코더 스택으로 시각화될 수 있으며, 시각 및 관성/레이다 단서를 혼합한 통합 토큰 표현 위에서 동작한다.

Results & Findings

Dataset / ModalityMetric (e.g., RMSE)Speedup vs. Prior Art
Synthetic RGB‑D (4‑view)0.12 m (↓ 2.5×)12× faster
Real‑world driving (RGB + IMU)0.18 m (↓ 3×)15× faster
Radar‑augmented night sequences0.22 m (↓ 2×)10× faster
  • 정확도: Any4D는 다양한 센서 구성에서 깊이와 플로우 오류를 2–3배 지속적으로 감소시킨다.
  • 효율성: 피드‑포워드 설계는 비용이 많이 드는 반복 정제를 없애며, 4‑view 입력에 대해 단일 RTX 3090에서 약 30 fps의 실시간 성능을 제공한다.
  • 견고성: 보조 모달리티(예: 레이더)를 추가하면 저조도·텍스처가 부족한 장면에서 복원이 더욱 향상되어 모듈형 표현의 이점을 확인한다.

Practical Implications

  • 로봇공학·자율주행: 엔지니어는 메트릭 스케일 3‑D 지도와 모션 필드를 실시간으로 얻어, 무거운 후처리 없이도 장애물 회피, 경로 계획, SLAM을 개선할 수 있다.
  • AR/VR 콘텐츠 제작: 핸드헬드 디바이스(RGB‑D 혹은 RGB + IMU만)에서 실시간 밀도 복원이 가능해져, 클라우드 의존도를 낮추고 온‑디바이스에서 몰입형 환경을 생성할 수 있다.
  • 멀티‑센서 융합 플랫폼: 동일 모델을 서로 다른 센서 스위트를 가진 로봇에 그대로 배포할 수 있어, 소프트웨어 스택을 단순화하고 하드웨어별 맞춤 파이프라인 필요성을 감소시킨다.
  • 엣지 배포: 추론이 단일 포워드 패스로 이루어지므로, Any4D는 엣지 AI 가속기에 최적화될 수 있어 저전력 온보드 4‑D 인식이 가능해진다.

Limitations & Future Work

  • 메트릭 센서가 없을 때의 스케일 모호성: 순수 RGB 설정은 학습된 스케일 사전 지식에 의존한다; 깊이·IMU 데이터가 있으면 절대 메트릭 정확도가 크게 향상된다.
  • 메모리 사용량: 많은 고해상도 프레임을 동시에 처리하면 GPU 메모리 한계를 초과할 수 있다; 저자는 계층적 토큰 샘플링을 완화책으로 제시한다.
  • 동적 객체: 씬 플로우가 움직임을 포착하지만, 옷감과 같은 고비변형 변형은 여전히 어려우며 특수 모션 모델이 필요할 수 있다.
  • 향후 방향: 스트리밍 비디오(온라인 업데이트) 처리, 학습된 불확실성 추정 도입, 객체 탐지·제어와 같은 다운스트림 작업과의 tighter integration 등을 탐구한다.

Authors

  • Jay Karhade
  • Nikhil Keetha
  • Yuchen Zhang
  • Tanisha Gupta
  • Akash Sharma
  • Sebastian Scherer
  • Deva Ramanan

Paper Information

  • arXiv ID: 2512.10935v1
  • Categories: cs.CV, cs.AI, cs.LG, cs.RO
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.