[Paper] GenRecon: Generative Priors를 연결한 멀티뷰 3D 씬 재구성
Source: arXiv - 2605.23888v1
개요
이 논문은 GenRecon이라는 새로운 파이프라인을 소개한다. 이 파이프라인은 다중‑뷰 RGB 이미지를 실내 장면의 고품질, 편집 가능한 3D 재구성으로 변환한다. 전통적인 다중‑뷰 기하학을 강력한 생성형 형태 모델(Trellis.2)과 결합함으로써, 저자들은 뷰 간에 기하학적으로 일관되면서도 세밀한 디테일이 풍부한 재구성을 달성했으며, 이는 현재 최첨단 기술보다 약 16 % 정도 우수하다.
주요 기여
- Conditional 3D generation for scenes – 장면 재구성을 겹치는 3‑D “청크” 집합에 대한 생성 작업으로 재정의하여 대형 실내 공간으로의 확장성을 가능하게 함.
- Projection‑based conditioning – 뷰에 구애받지 않는 메커니즘을 도입해 2‑D 이미지 특징을 일관된 3‑D 잠재 공간으로 끌어올리며, 이는 생성 사전과 정렬됩니다.
- Extension of object‑level priors to scene level – 단일 객체에 대해 학습된 고품질 Trellis.2 형태 모델을 전체 방에 대한 완전한 물리 기반 렌더링(PBR) 메쉬를 생성하도록 확장합니다.
- Editable, PBR‑ready output – 추가 정리 없이도 게임 엔진, AR/VR 파이프라인 또는 후속 시뮬레이션에 바로 사용할 수 있는 메쉬를 제공합니다.
- Quantitative and qualitative gains – 표준 실내 데이터셋에서 기존 최고 수준 재구성 베이스라인 대비 16 % 향상을 보여줍니다.
Methodology
- Chunk‑wise tiling – 대상 장면을 겹치는 3‑D 볼륨(청크)으로 나눕니다. 각 청크는 독립적으로 처리되지만 겹침을 통해 전역 일관성을 유지합니다.
- Feature extraction & projection – 다중 뷰 RGB 이미지를 CNN에 통과시켜 픽셀별 특징을 얻습니다. 알려진 카메라 자세를 이용해 이 특징들을 3‑D 청크에 역투영하여, 장면의 기하학을 반영한 밀집 특징 그리드를 만듭니다.
- Conditional generation with Trellis.2 – 역투영된 그리드는 사전 학습된 생성 모델(Trellis.2)의 조건 입력으로 사용됩니다. 모델은 해당 청크에 대한 부호 거리 필드(SDF)를 예측하고, 이를 marching cubes 알고리즘을 통해 메쉬로 변환합니다.
- Fusion & refinement – 겹치는 청크들을 SDF 값의 단순 평균으로 병합한 뒤, 가벼운 Poisson 기반 스무딩을 적용해 이음새를 제거합니다.
- PBR material assignment – 원본 이미지에서 텍스처 맵을 추출해 메쉬에 베이킹함으로써, 바로 렌더링할 수 있는 자산을 생성합니다.
전체 파이프라인은 테스트 시에 어떠한 반복 최적화도 수행하지 않으며, 기존의 다중 뷰 스테레오나 볼류메트릭 퓨전 방법보다 훨씬 빠릅니다.
Results & Findings
- Accuracy – ScanNet 및 Matterport3D 벤치마크에서 GenRecon은 Chamfer 거리를 감소시키고, COLMAP + TSDF Fusion 및 Neural Radiance Fields (NeRF)‑기반 재구성 같은 방법에 비해 법선 일관성을 약 16 % 향상시킵니다.
- Completeness – 생성적 사전 지식은 순수 기하학 파이프라인이 구멍으로 남기는 가려지거나 누락된 기하(예: 가구 아래 표면)를 채워줍니다.
- Visual fidelity – 렌더링 결과는 선명한 가장자리, 현실적인 표면 디테일, 올바른 조명 단서를 보여주며, 이는 PBR‑호환 메쉬 출력 덕분입니다.
- Speed – 생성 모델이 청크 단위로 한 번의 전방 패스로 적용되기 때문에, 일반적인 10 m² 방의 재구성은 단일 RTX 4090 GPU에서 2 분 미만에 완료됩니다.
실용적 시사점
- 게임 및 VR 자산 제작 – 실제 방의 사진 몇 장만으로도 제작‑준비가 된 메쉬를 만들 수 있어 수동 모델링 시간을 크게 단축합니다.
- 로봇공학 및 AR 내비게이션 – 고충실도, 완전한 씬 맵은 실내 환경에서 작동하는 자율 에이전트의 장애물 회피 및 객체 상호작용을 향상시킵니다.
- 디지털 트윈 및 BIM – 기존 사진 아카이브를 편집 가능한 3‑D 모델로 업그레이드하여 리모델링, 에너지 분석, 시설 관리 등을 용이하게 합니다.
- 콘텐츠 파이프라인 – 출력이 표준 PBR 메쉬이므로 Unity, Unreal, WebGL 워크플로에 별도의 변환 단계 없이 바로 연결됩니다.
제한 사항 및 향후 작업
- 정확한 카메라 포즈에 대한 의존성 – 투영 단계는 신뢰할 수 있는 포즈 추정을 전제로 하며, 노이즈가 있는 포즈 데이터는 컨디셔닝 신호를 저하시킬 수 있습니다.
- 생성적 사전 편향 – Trellis.2가 특정 객체 분포에 대해 학습되었기 때문에, 특이하거나 매우 복잡한 장면이 보다 일반적인 실내 레이아웃으로 “정규화”될 수 있습니다.
- 청크 크기 트레이드오프 – 큰 청크는 더 넓은 컨텍스트를 포착하지만 메모리 사용량이 증가합니다; 매우 큰 공간에 대한 최적의 크기를 찾는 것은 아직 해결되지 않은 엔지니어링 과제입니다.
- 향후 방향 – 저자들은 학습된 포즈 정제 통합, 생성적 사전을 야외 또는 혼합 현실 도메인으로 확장, 그리고 전체 건물 재구성을 처리하기 위한 계층적 청크 방식을 탐구할 것을 제안합니다.
저자
- Katharina Schmid
- Nicolas von Lützow
- Jozef Hladký
- Angela Dai
- Matthias Nießner
논문 정보
- arXiv ID: 2605.23888v1
- 분류: cs.CV
- 출판일: 2026년 5월 22일
- PDF: PDF 다운로드