[Paper] ZipSplat: 가우시안을 줄이고, 스플랫을 개선

발행: 1주 전 (2026년 6월 4일 AM 02:04 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2606.05102v1

Overview

ZipSplat은 토큰 기반의 피드‑포워드 파이프라인을 도입하여 3D Gaussian splatting에서 Gaussians의 수와 입력 이미지 해상도를 분리합니다. 시각 토큰을 장면 토큰의 컴팩트한 집합으로 클러스터링함으로써, 이 방법은 훨씬 적은 수의 Gaussian으로 장면을 표현하면서도 렌더링 품질을 유지하거나 심지어 향상시킬 수 있으며, 실제 카메라 포즈나 내부 파라미터가 필요하지 않습니다.

핵심 기여

토큰‑기반 가우시안 배치: 순진한 “픽셀당 하나의 가우시안” 전략을 클러스터링 단계로 대체하여, 장면이 실제로 필요로 하는 위치에 가우시안을 할당합니다.
전체 품질‑효율 곡선을 위한 단일 모델: 클러스터링이 추론 시에 수행되므로, 동일한 학습된 네트워크를 클러스터 수를 달리하여 실행할 수 있어 재학습 없이 속도와 충실도를 트레이드오프합니다.
포즈‑프리 학습: 백본이 다중 뷰 이미지에서 직접 밀집 시각 토큰을 학습함으로써, 보정된 카메라 파라미터가 필요하지 않습니다.
~6× 적은 가우시안으로 최첨단 결과 달성: DL3DV와 RealEstate10K에서 새로운 벤치마크를 설정하고, Mip‑NeRF360 및 ScanNet++에 제로‑샷으로 일반화합니다.
경량 디코딩: 작은 MLP가 각 씬 토큰을 제한 없는 3D 위치를 가진 소수의 가우시안 그룹으로 변환하여, 추론을 빠르게 유지합니다.

방법론

다중‑뷰 특징 추출: 공유된 CNN(또는 트랜스포머)이 모든 입력 이미지를 동시에 처리하여 색상, 질감, 그리고 거친 기하학적 단서를 인코딩한 밀집된 픽셀‑단위 시각 토큰을 생성합니다.
K‑means 클러스터링 (추론 시): 밀집 토큰 맵을 평탄화한 뒤 N개의 씬 토큰(사용자가 제어하는 예산)으로 클러스터링합니다. 이 단계는 평평한 벽과 같은 중복 정보를 압축하면서 디테일이 풍부한 영역은 보존합니다.
교차‑ 및 자체‑어텐션 정제: 씬 토큰들이 서로 및 원본 시각 토큰에 어텐션을 적용하여 전역 컨텍스트(예: 객체 경계)를 통합합니다.
가우시안 디코딩: 가벼운 MLP가 각 정제된 씬 토큰을 받아 작은 집합의 3D 가우시안(위치, 공분산, 색상, 불투명도)을 예측합니다. 가우시안은 제한되지 않아 픽셀 그리드가 아닌 공간 어디에든 배치될 수 있습니다.
렌더링: 표준 스플래팅을 사용해 가우시안 클라우드를 임의의 시점에서 렌더링하여 새로운 뷰 이미지를 생성합니다.

클러스터링 단계가 학습된 네트워크와 별개이기 때문에, 개발자는 메모리나 지연 시간 제약에 맞추어 클러스터 수만 간단히 조정하면 됩니다.

결과 및 발견

Dataset	PSNR (dB)	Gaussians (× fewer)	Relative gain vs. pixel‑aligned
DL3DV	+2.1 최상의 포즈‑프리 베이스라인 대비	~6× 적음	새로운 SOTA
RealEstate10K	+1.2 최상의 포즈‑프리 베이스라인 대비	~6× 적음	새로운 SOTA
Mip‑NeRF360 (zero‑shot)	베이스라인 대비 경쟁력/우수	동일 모델	강력한 일반화 입증
ScanNet++ (zero‑shot)	경쟁력	동일 모델	실내 스캔에 대한 견고성 표시

주요 요점

가우시안 수가 적어도 품질이 저하되지 않으며, 많은 경우 기하학적으로 중요한 영역에 초점을 맞추기 때문에 오히려 향상됩니다.
추론 유연성: 클러스터 수를 조절함으로써 개발자는 실시간으로 렌더링 속도와 시각적 충실도 사이의 균형을 맞출 수 있습니다.
포즈 요구사항이 없으므로 정확한 캘리브레이션이 어려운 AR/VR 또는 로봇 분야에서 데이터 수집 파이프라인이 간소화됩니다.

Practical Implications

Faster, lighter 3D assets for AR/VR: 모바일 GPU에서도 원활히 동작하도록 고품질 Gaussian splat을 생성하여, 기존 NeRF‑style 파이프라인에 비해 메모리 사용량을 크게 줄이면서 실시간 뷰 합성을 가능하게 합니다.
Simplified capture pipelines: ZipSplat은 카메라 자세를 알 필요가 없으므로, 취미용 포토그래메트리 앱이 캘리브레이션 단계를 건너뛰고 사용자 생성 3D 콘텐츠의 진입 장벽을 낮출 수 있습니다.
Scalable cloud rendering: 클라우드 서비스는 동시에 많은 사용자를 지원할 때 씬당 Gaussian 수를 줄여 대역폭 및 연산 비용을 절감하면서도 시각 품질을 유지할 수 있습니다.
Dynamic level‑of‑detail (LOD): 클러스터링 예산을 프레임별 또는 디바이스별로 조정할 수 있어, 게임이나 시뮬레이션에서 적응형 LOD 전략을 손쉽게 구현할 수 있습니다.
Cross‑domain transfer: 보지 못한 데이터셋에서도 제로샷 성능을 보이는 점은, 하나의 사전 학습된 ZipSplat 모델을 SDK와 함께 제공하여 다양한 실내·실외 환경을 바로 처리할 수 있음을 시사합니다.

제한 사항 및 향후 작업

클러스터링 오버헤드: 경량임에도 불구하고 K‑means 단계는 추론 시 비트리비얼하지 않은 CPU 비용을 추가하며, 이는 초저지연 애플리케이션에서 병목이 될 수 있습니다.
고정 토큰 차원: 현재 백본은 단일 토큰 해상도를 생성합니다; 다중 스케일 토큰을 탐색하면 매우 큰 장면에서 디테일 캡처를 더욱 향상시킬 수 있습니다.
극단적인 뷰 외삽 처리: 대부분의 스플래팅 방법과 마찬가지로 ZipSplat은 훈련 카메라 프러스텀 밖에 크게 위치한 시점에서 가우시안 밀도가 희박해지는 경우 어려움을 겪을 수 있습니다.
향후 방향: 저자들은 명시적인 K‑means 단계를 없애기 위해 학습된 클러스터링(예: 미분 가능한 풀링)을 통합하고, 동적 장면이나 비디오 기반 캡처를 위한 시간적 일관성을 지원하도록 프레임워크를 확장할 것을 제안합니다.

저자

Alexander Veicht
Sunghwan Hong
Dániel Baráth
Marc Pollefeys

논문 정보

arXiv ID: 2606.05102v1
분류: cs.CV
발표일: 2026년 6월 3일
PDF: PDF 다운로드

[Paper] ZipSplat: 가우시안을 줄이고, 스플랫을 개선

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성