[Paper] Splatent: Novel View Synthesis를 위한 Diffusion Latents 스플래팅

발행: (2025년 12월 11일 오전 03:57 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.09923v1

Overview

이 논문은 Splatent라는 diffusion 기반 후처리 파이프라인을 소개한다. 이는 사전 학습된 VAE의 잠재 공간에 존재하는 3D Gaussian Splatting(3DGS)의 출력을 선명하게 만든다. 미세 디테일 복구 단계를 3D에서 원래 2D 이미지 뷰로 옮김으로써, 저자는 텍스처 충실도를 크게 향상시키면서도 잠재 공간 복사장(Radiance Field)의 속도와 확장성을 유지한다.

Key Contributions

  • Latent‑space diffusion on top of 3DGS: VAE 잠재 필드를 diffusion 모델의 캔버스로 취급하는 새로운 프레임워크로, 잠재 복사장의 컴팩트함을 유지하면서 고주파 디테일을 추가한다.
  • Multi‑view attention for 2D detail recovery: 3‑D에서 누락된 텍스처를 복원하려고 시도하는 대신, 모든 입력 뷰의 정보를 어텐션을 통해 집계하고, 복원된 디테일을 잠재 필드에 다시 주입한다.
  • State‑of‑the‑art results on standard benchmarks: Splatent는 PSNR, SSIM, LPIPS 측면에서 기존 VAE‑latent 복사장 방법들을 능가하며, 희소 뷰 새로운 뷰 합성에서 새로운 최고 수준을 기록한다.
  • Plug‑and‑play compatibility: 이 접근법은 기존 피드포워드 3DGS 파이프라인(예: Instant‑NGP, Gaussian‑Splatting)에 쉽게 연결될 수 있으며, 최소한의 추가 연산으로 시각적 품질을 일관되게 향상시킨다.
  • Preservation of pretrained VAE quality: VAE를 미세 조정할 필요가 없으며, 다중 뷰 일관성과 재구성 충실도 사이의 전형적인 트레이드오프를 피한다.

Methodology

  1. Base 3DGS in latent space – 사전 학습된 VAE가 입력 이미지를 저차원 잠재 그리드로 인코딩한다. 3D Gaussian splatting은 이 그리드 위에서 수행되어, 어떤 시점에서도 빠르게 렌더링할 수 있는 거친 복사장을 만든다.
  2. Diffusion enhancement module – 조건부 diffusion 모델이 렌더링된 거친 뷰(여전히 잠재 공간)와 이웃 소스 뷰 집합을 조건으로 받아들인다.
  3. Multi‑view attention – 조건부 입력은 트랜스포머 스타일 어텐션 블록을 사용하여 diffusion 모델이 모든 사용 가능한 뷰에서 텍스처 단서를 질의하도록 한다. 이는 VAE 압축 과정에서 손실된 고주파 정보를 “빌려오는” 효과를 만든다.
  4. Latent update & re‑render – diffusion 단계는 잔차 잠재 맵을 예측하고, 이를 원래 잠재 필드에 더한다. 업데이트된 잠재 필드는 다시 splat되어 고디테일 새로운 뷰를 생성한다.
  5. Training – diffusion 모델은 기존 다중 뷰 데이터셋에서 생성된 (거친 잠재 렌더, 정답 잠재) 합성 쌍을 이용해 학습한다. VAE는 전체 과정 내내 고정된 상태를 유지한다.

파이프라인은 다음과 같이 시각화될 수 있다: 입력 이미지 → VAE 인코더 → 잠재 3DGS → 거친 렌더 → diffusion + attention → 정제된 잠재 → 3DGS 렌더.

Results & Findings

DatasetPSNR ↑SSIM ↑LPIPS ↓
NeRF‑Synthetic (8 views)31.20.940.07
Tanks & Temples (sparse)28.50.910.09
ScanNet (4‑view)29.80.920.08
  • Texture fidelity: 시각적 비교에서 경계가 선명하고 섬유 조직, 벽돌 모르타르와 같은 미세 패턴이 복원되어, 기본 latent‑3DGS에서는 흐릿하게 보였던 부분이 크게 개선된다.
  • Speed: diffusion 단계는 RTX 4090 기준으로 뷰당 약 0.2 s만 추가되며, 전체 해상도 NeRF 학습(수 시간)보다 여전히 훨씬 빠르다.
  • Robustness to sparsity: 입력 뷰가 3개뿐인 경우에도 Splatent는 다른 latent‑field 방법이 완전히 놓치는 디테일을 복원한다.

전체적으로 Splatent는 가장 강력한 기존 latent‑radiance 접근법에 비해 ~1.5 dB PSNR 향상을 달성하면서 메모리 사용량은 동일하게 유지한다.

Practical Implications

  • Rapid prototyping of AR/VR assets: 개발자는 며칠이 걸리는 NeRF 학습 없이도 소수의 사진만으로 고품질 3‑D 자산을 빠르게 생성할 수 있다.
  • Integration with existing pipelines: diffusion 모듈이 드롭인 후처리기이므로, 실시간 렌더링을 위해 Gaussian‑Splatting을 사용하는 스튜디오는 단일 추가 추론 패스로 텍스처 품질을 업그레이드할 수 있다.
  • Edge‑device feasibility: 잠재 표현이 컴팩트하게 유지되어 모바일이나 임베디드 AR 헤드셋에서도 온디바이스 추론이 가능하며, diffusion 단계만 필요에 따라 서버로 오프로드할 수 있다.
  • Improved downstream tasks: 향상된 텍스처 재구성은 포토리얼리스틱 재조명, 텍스처 인식 충돌 감지, 컴퓨터 비전 모델을 위한 데이터 증강 등 다양한 작업에 이점을 제공한다.

Limitations & Future Work

  • Dependence on view coverage: Splatent가 매우 희소한 입력에서도 동작하지만, 객체 뒷면처럼 전혀 보이지 않는 극단적인 뷰 갭에서는 여전히 환각이 발생할 수 있다(이는 diffusion의 일반적인 위험).
  • Computational overhead of diffusion: 비록 modest하지만, 추가 diffusion 패스는 실시간 스트리밍 시나리오에서 병목이 될 수 있다. 향후 경량 diffusion 혹은 distillation 연구가 필요하다.
  • Fixed VAE latent dimensionality: 현재는 사전 학습된 VAE를 가정하고 있으며, VAE와 diffusion을 공동 최적화하면 품질을 더욱 끌어올릴 수 있다.
  • Generalization to non‑photorealistic domains: 현재 학습 데이터는 주로 실내·실외 사진에 국한되므로, 의료 영상이나 과학 시각화와 같은 비포토리얼리즘 영역으로 확장하는 것이 남은 과제이다.

Authors

  • Or Hirschorn
  • Omer Sela
  • Inbar Huberman‑Spiegelglas
  • Netalee Efrat
  • Eli Alshan
  • Ianir Ideses
  • Frederic Devernay
  • Yochai Zvik
  • Lior Fritz

Paper Information

  • arXiv ID: 2512.09923v1
  • Categories: cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »