[Paper] GaussianGPT: 자동회귀 3D Gaussian 씬 생성으로의 접근

발행: 1개월 전 (2026년 3월 28일 오전 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.26661v1

개요

이 논문은 GaussianGPT를 소개한다. 이는 변환기 기반 자동회귀 모델로, 가우시안 프리미티브의 집합으로 전체 3‑D 장면을 생성한다. 각 가우시안을 개별 토큰으로 취급하고 하나씩 예측함으로써, 저자들은 현재 3‑D 생성 작업을 지배하는 확산 파이프라인을 우회하고, 제어 가능한 단계별 장면 합성을 위한 새로운 가능성을 열었다.

주요 기여

자기회귀 3‑D 생성: 확산이나 흐름 매칭을 사용하지 않고, 다음 토큰 예측을 통해 직접 3‑D 가우시안을 예측하는 최초의 트랜스포머.
가우시안을 위한 이산 잠재 격자: 벡터 양자화를 이용한 희소 3‑D 컨볼루션 오토인코더가 연속적인 가우시안 파라미터를 압축하여 컴팩트한 토큰 어휘로 변환.
3‑D 회전 위치 임베딩: 인과 트랜스포머가 3차원 공간 관계를 이해하도록 하여 생성 과정에서 기하학을 보존.
세밀한 제어: 순차적 특성을 활용해 장면 완성, 아웃‑페인팅, 온도 기반 샘플링, 추가 학습 없이 조정 가능한 생성 범위 등을 지원.
신경 렌더링과의 호환성: 생성된 가우시안 집합을 현대 신경 렌더링 파이프라인(예: Gaussian Splatting)으로 바로 입력하여 고품질 시각 출력을 얻을 수 있음.

방법론

Encoding Gaussians – 실제 3‑D 장면은 먼저 가우시안 프리미티브(위치, 공분산, 색상, 불투명도)의 클라우드로 표현됩니다. 희소 3‑D 컨볼루션 오토인코더는 이러한 프리미티브를 재구성하는 방법을 학습하고, 벡터 양자화기(vector‑quantizer)는 각 로컬 패치를 이산 코드북 엔트리로 매핑하여 연속적인 장면을 토큰 그리드로 변환합니다.
Token Serialization – 3‑D 그리드는 결정적 순서(예: Morton/Z‑order)를 사용해 시퀀스로 평탄화되며, 이를 통해 공간적 근접성이 토큰 스트림에 보존됩니다.
Causal Transformer – GPT‑스타일 트랜스포머가 토큰 시퀀스를 받아 이전 모든 토큰을 조건으로 다음 토큰을 예측합니다. 3‑D 회전 위치 임베딩이 명시적인 xyz 정보를 주입하여 모델이 생성 과정에서 기하학을 이해하도록 합니다.
Autoregressive Decoding – 빈 그리드에서 시작해 모델이 토큰을 하나씩 샘플링합니다(옵션으로 온도 제어 가능). 전체 시퀀스가 생성된 후, 오토인코더의 디코더 부분이 해당 가우시안 프리미티브를 재구성하고 이를 렌더링합니다.

모델이 한 번에 전체 장면을 보지 않기 때문에, 중단·재개가 가능하고 부분적인 사용자 입력에 따라 가이딩될 수 있어 인터랙티브 애플리케이션에 자연스럽게 적합합니다.

결과 및 발견

품질: 생성된 장면은 Gaussian Splatting으로 렌더링될 때 최첨단 diffusion 모델에 필적하는 시각적 충실도를 달성하며, 선명한 기하학과 현실적인 쉐이딩을 제공합니다.
속도: Autoregressive 샘플링은 토큰당 속도가 iterative diffusion refinement보다 빠르며, 특히 생성 범위가 제한될 때(예: 관심 영역만 생성) 더욱 그렇습니다.
제어: 실험을 통해 재학습 없이도 장면 완성(누락된 부분 채우기), out‑painting(원본 경계 외 확장), 그리고 temperature 기반 다양성 확보가 성공적으로 이루어짐을 보여줍니다.
확장성: Transformer는 토큰 수에 따라 확장되며, sparse grid 표현은 대규모 장면에서도 토큰 수를 관리 가능한 수준으로 유지합니다.

실용적 함의

Interactive Content Creation – 아티스트는 대략적인 레이아웃으로 시작하고 GaussianGPT가 세부 사항을 채우게 한 뒤, 온도 값을 조정하거나 특정 토큰을 고정하는 식으로 출력을 반복적으로 제어할 수 있습니다.
Game Level Design – 자동 회귀 생성(autoregressive generation)을 이용하면 기존 지형과의 일관성을 유지하면서 환경을 실시간으로 확장할 수 있습니다(예: 지형의 절차적 out‑painting).
AR/VR Scene Completion – 디바이스가 캡처한 부분 스캔을 실시간으로 완성해, 무거운 후처리 없이도 보다 풍부한 몰입형 경험을 제공합니다.
Efficient Cloud Rendering – 모델이 압축된 토큰 그리드에서 작동하므로 생성된 씬을 전송하는 대역폭이 적어, 클라우드 기반 렌더링 서비스에 매력적입니다.
Hybrid Pipelines – GaussianGPT를 확산 모델과 결합할 수 있습니다(예: 확산 모델로 거친 레이아웃을 만들고 자동 회귀 모델로 세밀한 디테일을 추가)하여 두 패러다임의 장점을 모두 활용합니다.

제한 사항 및 향후 연구

Token Vocabulary Size – 이산화 단계에서 가우시안 파라미터의 미묘한 변화를 잃을 수 있어 초고정밀 렌더링에 제한이 있습니다.
Long‑Range Consistency – 로터리 임베딩은 지역 기하학을 잘 포착하지만, 매우 긴 토큰 시퀀스에 걸쳐 전역 장면 일관성을 보장하는 것은 여전히 어려운 과제입니다.
Training Data – 모델은 대규모 고품질 가우시안‑스플래팅 씬 데이터셋에 의존합니다; 특정 분야에 필요한 데이터를 확보하는 것이 병목이 될 수 있습니다.
Future Directions – 저자들은 계층적 토큰화(거친‑세밀), 조건부 제어(텍스트, 스케치) 통합, 그리고 자동회귀와 확산 단계를 혼합하여 충실도와 제어성을 더욱 향상시키는 방안을 제안합니다.

저자

Nicolas von Lützow
Barbara Rössle
Katharina Schmid
Matthias Nießner

논문 정보

arXiv ID: 2603.26661v1
분류: cs.CV
출판일: 2026년 3월 27일
PDF: Download PDF

[Paper] GaussianGPT: 자동회귀 3D Gaussian 씬 생성으로의 접근

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Zero-Shot Depth from Defocus

[Paper] 보장된 조정 가능한 Soft Equivariance

[Paper] PerceptionComp: 복잡한 인식 중심 추론을 위한 비디오 벤치마크

[Paper] 언어를 넘어: Egocentric Vision에서 손 가리키기로 Referring Expressions Grounding