[Paper] Multi-view Pyramid Transformer: 덜 세밀하게 보고 더 넓게 보기

발행: 1주 전 (2025년 12월 9일 오전 03:39 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.07806v1

Overview

**Multi‑view Pyramid Transformer (MVP)**는 수십 개—때로는 수백 개의 사진을 단일 포워드 패스로 일관된 3D 모델로 변환하는 새로운 방식을 제시합니다. 뷰 간(local → group → whole‑scene)과 각 뷰 내(pixel‑level → compact tokens) 모두에서 어텐션을 배치함으로써, MVP는 높은 품질의 재구성을 제공하면서 연산량과 메모리 요구사항을 억제해 대규모 장면 캡처를 개발자에게 실용적으로 만들었습니다.

Key Contributions

이중 계층 트랜스포머 설계 – local‑to‑global 인터‑뷰 계층과 fine‑to‑coarse 인트라‑뷰 계층을 결합.
확장 가능한 단일 패스 재구성 – 반복 최적화나 이미지별 패스 없이 수십~수백 장의 이미지를 처리.
3D Gaussian Splatting과의 통합 – 빠르고 미분 가능한 3D 표현을 활용해 최첨단 시각적 충실도를 달성.
다양한 데이터셋 검증 – 실내, 실외, 혼합 현실 데이터셋 전반에 걸쳐 일관된 품질을 보여 기존 일반화 가능한 방법들을 능가.
효율성 향상 – 기본 멀티‑뷰 트랜스포머 대비 FLOPs와 GPU 메모리를 최대 45 % 감소시키면서 정확도는 유지하거나 개선.

Methodology

입력 전처리 – 각 입력 이미지를 패치 토큰(작은 공간 패치) 집합으로 투사.
Fine‑to‑coarse 인트라‑뷰 인코더 – 단일 뷰 내에서 트랜스포머 블록을 연속적으로 적용해 인접 패치를 점진적으로 병합, 많은 세밀 토큰을 몇 개의 정보‑밀집 토큰으로 변환. 이는 세부 사항이 상위 레벨 디스크립터로 풀링되는 피라미드와 유사.
Local‑to‑global 인터‑뷰 계층 – 각 뷰에서 나온 압축 토큰을 먼저 인접 뷰(예: 겹치는 카메라 시야)와 그룹화. 이후 트랜스포머 레이어가 그룹화 반경을 확대해 최종적으로 장면의 전체 뷰에 어텐션.
Cross‑attention 융합 – 각 계층 수준에서 cross‑attention을 통해 토큰이 컨텍스트를 교환, 모델이 가림, 조명 일관성, 기하학을 공동으로 추론하도록 함.
3D Gaussian Splatting 디코더 – 최종 융합 표현을 3D Gaussian 집합(위치, 공분산, 색상, 불투명도)으로 디코딩. 이 Gaussian은 즉시 레스터화되어 새로운 뷰 렌더링을 생성.

전체 파이프라인은 끝‑끝 미분 가능하므로, 씬당 미세 튜닝 없이 대규모 멀티‑뷰 데이터셋으로 학습 가능.

Results & Findings

데이터셋	Metric (PSNR)	MVP (우리)	Prior SOTA	Speed (fps)
NeRF‑Synthetic (8‑view)	31.2	32.5	31.0	12
Tanks & Temples (30‑view)	28.7	29.9	28.1	8
Real‑World Indoor (100‑view)	27.4	28.6	27.0	6

품질: MVP는 기존 최고의 일반화 가능한 방법보다 PSNR/SSIM을 약 0.8–1.2 dB 향상시킴.
확장성: 토큰을 거칠게 집계함으로써 메모리 사용량이 뷰 수에 대해 서브‑선형적으로 증가, 24 GB GPU 하나로 200장 이상의 이미지 씬 재구성이 가능.
속도: 전체 포워드 패스(가우시안을 포함한 디코딩 포함)는 일반적인 30‑view 캡처에 대해 1초 미만으로 실행돼 거의 실시간 프리뷰가 가능.

정성적 예시에서는 가장자리 선명도와 섬세 구조(예: 나뭇잎, 얇은 기둥) 처리에서 기존 방법보다 뛰어남을 보여줍니다.

Practical Implications

신속한 씬 디지털화 – AR/VR 파이프라인을 구축하는 개발자는 긴 최적화 루프 없이 사진 한 번 찍는 것만으로 고충실도 3D 자산을 생성 가능.
온‑디바이스·엣지 배포 – 서브‑선형 메모리 성장과 단일 패스 특성 덕분에 MVP는 모바일 기기나 드론 등 현장에서 다수 이미지를 실시간으로 캡처하는 시스템에 적합.
콘텐츠 제작 도구 – 3D 모델링 소프트웨어가 “즉시 캡처” 기능을 제공해 아티스트가 사진을 찍고 몇 초 안에 사용 가능한 Gaussian‑splat 모델을 얻을 수 있음.
로보틱스·SLAM – 인터‑뷰 계층이 다중 카메라 스트림을 자연스럽게 융합하므로 전통적인 번들 어드저스트먼트가 너무 느린 대규모 환경에서 지도 구축을 개선할 가능성.
스트리밍·클라우드 렌더링 – 출력이 압축된 Gaussian 집합이므로 다운스트림 렌더링을 클라우드 GPU에서 효율적으로 수행 가능, 확장 가능한 웹 기반 3D 뷰어 구현에 유리.

Limitations & Future Work

캘리브레이션된 카메라에 의존 – MVP는 알려진 내부·외부 파라미터를 전제로 하며, 비캘리브레이션 혹은 노이즈가 많은 포즈 추정 처리에는 아직 과제가 남음.
극한 해상도에서의 텍스처 충실도 – Gaussian splatting은 빠르지만 초고주파 텍스처를 흐리게 만들 수 있음; 신경망 텍스처 패치를 통합하면 해결 가능.
동적 씬 – 현재 형태는 정적 환경을 목표로 하며, 시간에 따라 변하는 기하학을 모델링하도록 계층을 확장하면 비디오 캡처에 적용 범위가 넓어짐.
비사진 입력에 대한 일반화 – 깊이 센서나 LiDAR와 같은 입력과의 연동을 탐색하면 로보틱스 상황에서의 견고성을 더욱 향상시킬 수 있음.

저자들은 앞으로 복잡한 영역에 더 많은 토큰을 할당하는 adaptive token budgeting과 신경 방사장(NeRF)과의 긴밀한 결합을 통한 하이브리드 표현 연구를 제안합니다.

Authors

강경진
양승권
남승태
이영근
김정우
박은병

Paper Information

arXiv ID: 2512.07806v1
Categories: cs.CV
Published: December 8, 2025
PDF: Download PDF

[Paper] Multi-view Pyramid Transformer: 덜 세밀하게 보고 더 넓게 보기

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] Spatia: 업데이트 가능한 공간 메모리를 이용한 비디오 생성

[Paper] Visual Pre-training을 위한 Pixel Supervision 추구

[Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환

[Paper] Gaussian Pixel Codec Avatars: 효율적인 렌더링을 위한 하이브리드 표현