[Paper] ZipSplat: 가우시안을 줄이고, 스플랫을 개선
Source: arXiv - 2606.05102v1
Overview
ZipSplat은 토큰 기반의 피드‑포워드 파이프라인을 도입하여 3D Gaussian splatting에서 Gaussians의 수와 입력 이미지 해상도를 분리합니다. 시각 토큰을 장면 토큰의 컴팩트한 집합으로 클러스터링함으로써, 이 방법은 훨씬 적은 수의 Gaussian으로 장면을 표현하면서도 렌더링 품질을 유지하거나 심지어 향상시킬 수 있으며, 실제 카메라 포즈나 내부 파라미터가 필요하지 않습니다.
핵심 기여
- 토큰‑기반 가우시안 배치: 순진한 “픽셀당 하나의 가우시안” 전략을 클러스터링 단계로 대체하여, 장면이 실제로 필요로 하는 위치에 가우시안을 할당합니다.
- 전체 품질‑효율 곡선을 위한 단일 모델: 클러스터링이 추론 시에 수행되므로, 동일한 학습된 네트워크를 클러스터 수를 달리하여 실행할 수 있어 재학습 없이 속도와 충실도를 트레이드오프합니다.
- 포즈‑프리 학습: 백본이 다중 뷰 이미지에서 직접 밀집 시각 토큰을 학습함으로써, 보정된 카메라 파라미터가 필요하지 않습니다.
- ~6× 적은 가우시안으로 최첨단 결과 달성: DL3DV와 RealEstate10K에서 새로운 벤치마크를 설정하고, Mip‑NeRF360 및 ScanNet++에 제로‑샷으로 일반화합니다.
- 경량 디코딩: 작은 MLP가 각 씬 토큰을 제한 없는 3D 위치를 가진 소수의 가우시안 그룹으로 변환하여, 추론을 빠르게 유지합니다.
방법론
- 다중‑뷰 특징 추출: 공유된 CNN(또는 트랜스포머)이 모든 입력 이미지를 동시에 처리하여 색상, 질감, 그리고 거친 기하학적 단서를 인코딩한 밀집된 픽셀‑단위 시각 토큰을 생성합니다.
- K‑means 클러스터링 (추론 시): 밀집 토큰 맵을 평탄화한 뒤 N개의 씬 토큰(사용자가 제어하는 예산)으로 클러스터링합니다. 이 단계는 평평한 벽과 같은 중복 정보를 압축하면서 디테일이 풍부한 영역은 보존합니다.
- 교차‑ 및 자체‑어텐션 정제: 씬 토큰들이 서로 및 원본 시각 토큰에 어텐션을 적용하여 전역 컨텍스트(예: 객체 경계)를 통합합니다.
- 가우시안 디코딩: 가벼운 MLP가 각 정제된 씬 토큰을 받아 작은 집합의 3D 가우시안(위치, 공분산, 색상, 불투명도)을 예측합니다. 가우시안은 제한되지 않아 픽셀 그리드가 아닌 공간 어디에든 배치될 수 있습니다.
- 렌더링: 표준 스플래팅을 사용해 가우시안 클라우드를 임의의 시점에서 렌더링하여 새로운 뷰 이미지를 생성합니다.
클러스터링 단계가 학습된 네트워크와 별개이기 때문에, 개발자는 메모리나 지연 시간 제약에 맞추어 클러스터 수만 간단히 조정하면 됩니다.
결과 및 발견
| Dataset | PSNR (dB) | Gaussians (× fewer) | Relative gain vs. pixel‑aligned |
|---|---|---|---|
| DL3DV | +2.1 최상의 포즈‑프리 베이스라인 대비 | ~6× 적음 | 새로운 SOTA |
| RealEstate10K | +1.2 최상의 포즈‑프리 베이스라인 대비 | ~6× 적음 | 새로운 SOTA |
| Mip‑NeRF360 (zero‑shot) | 베이스라인 대비 경쟁력/우수 | 동일 모델 | 강력한 일반화 입증 |
| ScanNet++ (zero‑shot) | 경쟁력 | 동일 모델 | 실내 스캔에 대한 견고성 표시 |
주요 요점
- 가우시안 수가 적어도 품질이 저하되지 않으며, 많은 경우 기하학적으로 중요한 영역에 초점을 맞추기 때문에 오히려 향상됩니다.
- 추론 유연성: 클러스터 수를 조절함으로써 개발자는 실시간으로 렌더링 속도와 시각적 충실도 사이의 균형을 맞출 수 있습니다.
- 포즈 요구사항이 없으므로 정확한 캘리브레이션이 어려운 AR/VR 또는 로봇 분야에서 데이터 수집 파이프라인이 간소화됩니다.
Practical Implications
- Faster, lighter 3D assets for AR/VR: 모바일 GPU에서도 원활히 동작하도록 고품질 Gaussian splat을 생성하여, 기존 NeRF‑style 파이프라인에 비해 메모리 사용량을 크게 줄이면서 실시간 뷰 합성을 가능하게 합니다.
- Simplified capture pipelines: ZipSplat은 카메라 자세를 알 필요가 없으므로, 취미용 포토그래메트리 앱이 캘리브레이션 단계를 건너뛰고 사용자 생성 3D 콘텐츠의 진입 장벽을 낮출 수 있습니다.
- Scalable cloud rendering: 클라우드 서비스는 동시에 많은 사용자를 지원할 때 씬당 Gaussian 수를 줄여 대역폭 및 연산 비용을 절감하면서도 시각 품질을 유지할 수 있습니다.
- Dynamic level‑of‑detail (LOD): 클러스터링 예산을 프레임별 또는 디바이스별로 조정할 수 있어, 게임이나 시뮬레이션에서 적응형 LOD 전략을 손쉽게 구현할 수 있습니다.
- Cross‑domain transfer: 보지 못한 데이터셋에서도 제로샷 성능을 보이는 점은, 하나의 사전 학습된 ZipSplat 모델을 SDK와 함께 제공하여 다양한 실내·실외 환경을 바로 처리할 수 있음을 시사합니다.
제한 사항 및 향후 작업
- 클러스터링 오버헤드: 경량임에도 불구하고 K‑means 단계는 추론 시 비트리비얼하지 않은 CPU 비용을 추가하며, 이는 초저지연 애플리케이션에서 병목이 될 수 있습니다.
- 고정 토큰 차원: 현재 백본은 단일 토큰 해상도를 생성합니다; 다중 스케일 토큰을 탐색하면 매우 큰 장면에서 디테일 캡처를 더욱 향상시킬 수 있습니다.
- 극단적인 뷰 외삽 처리: 대부분의 스플래팅 방법과 마찬가지로 ZipSplat은 훈련 카메라 프러스텀 밖에 크게 위치한 시점에서 가우시안 밀도가 희박해지는 경우 어려움을 겪을 수 있습니다.
- 향후 방향: 저자들은 명시적인 K‑means 단계를 없애기 위해 학습된 클러스터링(예: 미분 가능한 풀링)을 통합하고, 동적 장면이나 비디오 기반 캡처를 위한 시간적 일관성을 지원하도록 프레임워크를 확장할 것을 제안합니다.
저자
- Alexander Veicht
- Sunghwan Hong
- Dániel Baráth
- Marc Pollefeys
논문 정보
- arXiv ID: 2606.05102v1
- 분류: cs.CV
- 발표일: 2026년 6월 3일
- PDF: PDF 다운로드