[Paper] GaussianGPT: 자동회귀 3D Gaussian 씬 생성으로의 접근

발행: (2026년 3월 28일 AM 02:58 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.26661v1

개요

이 논문은 GaussianGPT를 소개한다. 이는 변환기 기반 자동회귀 모델로, 가우시안 프리미티브의 집합으로 전체 3‑D 장면을 생성한다. 각 가우시안을 개별 토큰으로 취급하고 하나씩 예측함으로써, 저자들은 현재 3‑D 생성 작업을 지배하는 확산 파이프라인을 우회하고, 제어 가능한 단계별 장면 합성을 위한 새로운 가능성을 열었다.

주요 기여

  • 자기회귀 3‑D 생성: 확산이나 흐름 매칭을 사용하지 않고, 다음 토큰 예측을 통해 직접 3‑D 가우시안을 예측하는 최초의 트랜스포머.
  • 가우시안을 위한 이산 잠재 격자: 벡터 양자화를 이용한 희소 3‑D 컨볼루션 오토인코더가 연속적인 가우시안 파라미터를 압축하여 컴팩트한 토큰 어휘로 변환.
  • 3‑D 회전 위치 임베딩: 인과 트랜스포머가 3차원 공간 관계를 이해하도록 하여 생성 과정에서 기하학을 보존.
  • 세밀한 제어: 순차적 특성을 활용해 장면 완성, 아웃‑페인팅, 온도 기반 샘플링, 추가 학습 없이 조정 가능한 생성 범위 등을 지원.
  • 신경 렌더링과의 호환성: 생성된 가우시안 집합을 현대 신경 렌더링 파이프라인(예: Gaussian Splatting)으로 바로 입력하여 고품질 시각 출력을 얻을 수 있음.

방법론

  1. Encoding Gaussians – 실제 3‑D 장면은 먼저 가우시안 프리미티브(위치, 공분산, 색상, 불투명도)의 클라우드로 표현됩니다. 희소 3‑D 컨볼루션 오토인코더는 이러한 프리미티브를 재구성하는 방법을 학습하고, 벡터 양자화기(vector‑quantizer)는 각 로컬 패치를 이산 코드북 엔트리로 매핑하여 연속적인 장면을 토큰 그리드로 변환합니다.
  2. Token Serialization – 3‑D 그리드는 결정적 순서(예: Morton/Z‑order)를 사용해 시퀀스로 평탄화되며, 이를 통해 공간적 근접성이 토큰 스트림에 보존됩니다.
  3. Causal Transformer – GPT‑스타일 트랜스포머가 토큰 시퀀스를 받아 이전 모든 토큰을 조건으로 다음 토큰을 예측합니다. 3‑D 회전 위치 임베딩이 명시적인 xyz 정보를 주입하여 모델이 생성 과정에서 기하학을 이해하도록 합니다.
  4. Autoregressive Decoding – 빈 그리드에서 시작해 모델이 토큰을 하나씩 샘플링합니다(옵션으로 온도 제어 가능). 전체 시퀀스가 생성된 후, 오토인코더의 디코더 부분이 해당 가우시안 프리미티브를 재구성하고 이를 렌더링합니다.

모델이 한 번에 전체 장면을 보지 않기 때문에, 중단·재개가 가능하고 부분적인 사용자 입력에 따라 가이딩될 수 있어 인터랙티브 애플리케이션에 자연스럽게 적합합니다.

결과 및 발견

  • 품질: 생성된 장면은 Gaussian Splatting으로 렌더링될 때 최첨단 diffusion 모델에 필적하는 시각적 충실도를 달성하며, 선명한 기하학과 현실적인 쉐이딩을 제공합니다.
  • 속도: Autoregressive 샘플링은 토큰당 속도가 iterative diffusion refinement보다 빠르며, 특히 생성 범위가 제한될 때(예: 관심 영역만 생성) 더욱 그렇습니다.
  • 제어: 실험을 통해 재학습 없이도 장면 완성(누락된 부분 채우기), out‑painting(원본 경계 외 확장), 그리고 temperature 기반 다양성 확보가 성공적으로 이루어짐을 보여줍니다.
  • 확장성: Transformer는 토큰 수에 따라 확장되며, sparse grid 표현은 대규모 장면에서도 토큰 수를 관리 가능한 수준으로 유지합니다.

실용적 함의

  • Interactive Content Creation – 아티스트는 대략적인 레이아웃으로 시작하고 GaussianGPT가 세부 사항을 채우게 한 뒤, 온도 값을 조정하거나 특정 토큰을 고정하는 식으로 출력을 반복적으로 제어할 수 있습니다.
  • Game Level Design – 자동 회귀 생성(autoregressive generation)을 이용하면 기존 지형과의 일관성을 유지하면서 환경을 실시간으로 확장할 수 있습니다(예: 지형의 절차적 out‑painting).
  • AR/VR Scene Completion – 디바이스가 캡처한 부분 스캔을 실시간으로 완성해, 무거운 후처리 없이도 보다 풍부한 몰입형 경험을 제공합니다.
  • Efficient Cloud Rendering – 모델이 압축된 토큰 그리드에서 작동하므로 생성된 씬을 전송하는 대역폭이 적어, 클라우드 기반 렌더링 서비스에 매력적입니다.
  • Hybrid Pipelines – GaussianGPT를 확산 모델과 결합할 수 있습니다(예: 확산 모델로 거친 레이아웃을 만들고 자동 회귀 모델로 세밀한 디테일을 추가)하여 두 패러다임의 장점을 모두 활용합니다.

제한 사항 및 향후 연구

  • Token Vocabulary Size – 이산화 단계에서 가우시안 파라미터의 미묘한 변화를 잃을 수 있어 초고정밀 렌더링에 제한이 있습니다.
  • Long‑Range Consistency – 로터리 임베딩은 지역 기하학을 잘 포착하지만, 매우 긴 토큰 시퀀스에 걸쳐 전역 장면 일관성을 보장하는 것은 여전히 어려운 과제입니다.
  • Training Data – 모델은 대규모 고품질 가우시안‑스플래팅 씬 데이터셋에 의존합니다; 특정 분야에 필요한 데이터를 확보하는 것이 병목이 될 수 있습니다.
  • Future Directions – 저자들은 계층적 토큰화(거친‑세밀), 조건부 제어(텍스트, 스케치) 통합, 그리고 자동회귀와 확산 단계를 혼합하여 충실도와 제어성을 더욱 향상시키는 방안을 제안합니다.

저자

  • Nicolas von Lützow
  • Barbara Rössle
  • Katharina Schmid
  • Matthias Nießner

논문 정보

  • arXiv ID: 2603.26661v1
  • 분류: cs.CV
  • 출판일: 2026년 3월 27일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[논문] Zero-Shot Depth from Defocus

Depth from Defocus (DfD)는 포커스 스택으로부터 조밀한 메트릭 깊이 맵을 추정하는 작업이다. 특정 데이터셋에 overfitting하는 기존 연구와 달리, 이 논문은…