[Paper] 네이티브 및 콤팩트 구조화된 Latents for 3D Generation

발행: (2025년 12월 17일 오전 03:58 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.14692v1

개요

이 논문은 O‑Voxel이라는 새로운 희소 복셀 포맷을 소개합니다. O‑Voxel은 3D 객체의 기하학과 풍부한 표면 속성(예: 재질 파라미터)을 원시적으로 동시에 저장할 수 있습니다. O‑Voxel을 고도로 압축된 변분 오토인코더(Sparse Compression VAE)와 40억 파라미터 규모의 흐름 매칭 생성기와 결합함으로써, 저자들은 복잡하고 비다양체(Non‑Manifold) 토폴로지를 가진 자산에서도 최첨단 수준의 사실감을 달성하면서 추론 속도를 실용적인 수준으로 유지합니다.

주요 기여

  • O‑Voxel 표현 – 점유율, 표면 법선, 물리 기반 렌더링(PBR) 재질 맵을 동시에 인코딩하는 “omni‑voxel” 데이터 구조를 희소 형식으로 구현.
  • Sparse Compression VAE – 고차원 O‑Voxel 그리드를 세부 사항을 잃지 않으면서 압축된 잠재 벡터로 적극적으로 압축하는 VAE.
  • 대규모 흐름 매칭 생성기 – 여러 공개 3D 자산 컬렉션으로 학습된 4 B 파라미터 모델로, 경량 voxel 디코더와 비슷한 추론 속도로 무조건적인 3D 생성이 가능.
  • 우수성 입증 – 정량적·정성적 평가에서 기존 voxel 기반 또는 암시적 필드 생성기보다 현저히 높은 기하학 정확도와 재질 사실성을 보여줌.
  • 오픈소스 파이프라인 – 저자들은 기존 메쉬/포인트 클라우드 데이터셋을 O‑Voxel로 변환하는 코드, 사전 학습 가중치, 변환 도구를 공개하여 재현성을 높임.

방법론

  1. 데이터 준비 – 원시 메시와 포인트 클라우드를 희소 3‑D 그리드로 보셀화합니다. 각 점유 셀은 이진 점유 여부, 표면 법선, 알베도, 거칠기, 금속성, 방출도와 같은 소수의 채널을 저장합니다. 희소성은 활성 보셀만을 실제화하는 해시 기반 옥트리로 활용됩니다.
  2. 희소 압축 VAE
    • 인코더: 스파스 3‑D 컨볼루션 시리즈(※ MinkowskiEngine 사용)가 O‑Voxel을 잠재 벡터(≈128‑차원)로 압축합니다.
    • 디코더: 인코더와 구조가 대칭이며, 잠재 코드를 통해 전체 O‑Voxel을 복원합니다. 학습된 양자화 단계가 압축성을 촉진합니다.
    • 학습 손실: 표준 VAE KL 항, 각 채널에 대한 재구성 손실(L2는 연속 속성, BCE는 점유 여부), 그리고 표면 편차를 벌점화하는 지각 기하학 손실을 결합합니다.
  3. Flow‑matching 생성기 – GAN 대신 연속 정규화 흐름 방식을 채택합니다. 모델은 단순한 가우시안 잠재 분포를 VAE의 압축 잠재 공간으로 매핑하는 시간 의존 신경 ODE를 학습합니다. 이를 통해 대규모에서도 안정적인 학습이 가능합니다.
  4. 추론 – 가우시안 벡터를 샘플링하고, flow‑matching 네트워크를 실행해 잠재 코드를 얻은 뒤 VAE로 디코딩합니다. 마지막으로 O‑Voxel을 메쉬(예: marching cubes)로 변환하고, 실시간 렌더링에 사용할 수 있는 PBR 재질 텍스처를 제공합니다.

Results & Findings

  • Geometry quality – Chamfer Distance (CD)가 ShapeNetCore 벤치마크에서 기존 최고 voxel‑GAN 대비 약 35 % 향상되었습니다; 이 방법은 이전 암시적 방법이 표현할 수 없었던 개방형 표면 및 비다양체(edge)도 처리합니다.
  • Material realism – 학습된 재질 유사도 메트릭을 통해 측정했을 때, O‑Voxel 자산은 색상만 출력하는 기존 신경‑SDF 접근법에 비해 오류가 0.22 감소했습니다.
  • Compression – Sparse Compression VAE는 고해상도 O‑Voxel당 약 10 MB의 저장 용량을 잠재 벡터당 약 200 KB(≈50배 압축)로 줄이면서 시각적 충실도를 유지합니다.
  • Speed – 엔드‑투‑엔드 생성(샘플링 + 디코딩)은 단일 RTX 4090에서 약 30 ms에 실행되며, 경량 포인트 클라우드 생성기와 비슷하고 전체 암시적 필드 솔버(≈300 ms)보다 훨씬 빠릅니다.
  • Scalability – 200만 개의 다양한 자산(의자, 차량, 캐릭터)으로 학습한 결과, flow‑matching 모델이 모드 붕괴 없이 훈련 중 보지 못한 새로운 카테고리를 합성할 수 있음을 보여줍니다.

Practical Implications

  • Game & VR asset pipelines – 개발자는 고품질의 물리 기반 3‑D 자산을 실시간으로 생성할 수 있어 배경 소품이나 절차적 세계의 수동 모델링 시간을 크게 줄일 수 있습니다.
  • AR content creation – 컴팩트한 잠재 벡터를 사용하면 대역폭이 제한된 네트워크를 통해 3‑D 자산을 스트리밍할 수 있으며, 디코더는 엣지 GPU에서 실행되어 실시간으로 전체 품질 모델을 복원합니다.
  • Digital twins & simulation – 정확한 기하학과 재질 파라미터 덕분에 생성된 자산을 별도의 재질 작성 단계 없이 물리 기반 시뮬레이션(예: 조명, 충돌)에 바로 사용할 수 있습니다.
  • Data augmentation for downstream tasks – 합성 O‑Voxel 자산을 메쉬/포인트 클라우드로 변환하여 탐지, 분할, 자세 추정 모델의 학습 데이터를 풍부하게 할 수 있습니다.
  • Tooling integration – O‑Voxel이 희소 voxel 그리드이기 때문에 기존 voxel 기반 엔진(예: Unity의 Voxel Terrain, NVIDIA의 Omniverse)에 바로 연결할 수 있으며, 표준 포맷(OBJ/GLTF)으로 최소 손실로 변환할 수 있습니다.

제한 사항 및 향후 작업

  • Resolution trade‑off – 희소성이 메모리를 완화하지만, 매우 미세한 디테일(서브‑밀리미터)은 여전히 높은 voxel 해상도가 필요하며, 이는 추론 시간을 증가시킬 수 있습니다.
  • Material scope – 현재 채널 세트는 기본 PBR 파라미터를 포함하지만, 보다 이색적인 효과(서브서피스 스캐터링, 이방성)는 아직 인코딩되지 않았습니다.
  • Conditional generation – 모델은 주로 무조건적이며, 텍스트 프롬프트나 의미적 스케치를 받아들일 수 있도록 확장하면 적용 범위가 넓어집니다.
  • Cross‑modal consistency – 생성된 기하학을 해당 텍스처 아틀라스나 애니메이션 리그와 정렬하는 것은 여전히 해결되지 않은 과제입니다.

저자들은 차세대 단계로 계층적 O‑Voxel 구조, 보다 풍부한 재료 인코딩, 그리고 멀티모달 조건부 방식을 탐구할 것을 제안합니다.

저자

  • Jianfeng Xiang
  • Xiaoxue Chen
  • Sicheng Xu
  • Ruicheng Wang
  • Zelong Lv
  • Yu Deng
  • Hongyuan Zhu
  • Yue Dong
  • Hao Zhao
  • Nicholas Jing Yuan
  • Jiaolong Yang

Source: (위 링크는 그대로 유지됩니다)

논문 정보

  • arXiv ID: 2512.14692v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2025년 12월 16일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »