[Paper] GenRecon: Generative Priors를 연결한 멀티뷰 3D 씬 재구성

발행: 2주 전 (2026년 5월 23일 AM 02:49 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.23888v1

개요

이 논문은 GenRecon이라는 새로운 파이프라인을 소개한다. 이 파이프라인은 다중‑뷰 RGB 이미지를 실내 장면의 고품질, 편집 가능한 3D 재구성으로 변환한다. 전통적인 다중‑뷰 기하학을 강력한 생성형 형태 모델(Trellis.2)과 결합함으로써, 저자들은 뷰 간에 기하학적으로 일관되면서도 세밀한 디테일이 풍부한 재구성을 달성했으며, 이는 현재 최첨단 기술보다 약 16 % 정도 우수하다.

주요 기여

Conditional 3D generation for scenes – 장면 재구성을 겹치는 3‑D “청크” 집합에 대한 생성 작업으로 재정의하여 대형 실내 공간으로의 확장성을 가능하게 함.
Projection‑based conditioning – 뷰에 구애받지 않는 메커니즘을 도입해 2‑D 이미지 특징을 일관된 3‑D 잠재 공간으로 끌어올리며, 이는 생성 사전과 정렬됩니다.
Extension of object‑level priors to scene level – 단일 객체에 대해 학습된 고품질 Trellis.2 형태 모델을 전체 방에 대한 완전한 물리 기반 렌더링(PBR) 메쉬를 생성하도록 확장합니다.
Editable, PBR‑ready output – 추가 정리 없이도 게임 엔진, AR/VR 파이프라인 또는 후속 시뮬레이션에 바로 사용할 수 있는 메쉬를 제공합니다.
Quantitative and qualitative gains – 표준 실내 데이터셋에서 기존 최고 수준 재구성 베이스라인 대비 16 % 향상을 보여줍니다.

Methodology

Chunk‑wise tiling – 대상 장면을 겹치는 3‑D 볼륨(청크)으로 나눕니다. 각 청크는 독립적으로 처리되지만 겹침을 통해 전역 일관성을 유지합니다.
Feature extraction & projection – 다중 뷰 RGB 이미지를 CNN에 통과시켜 픽셀별 특징을 얻습니다. 알려진 카메라 자세를 이용해 이 특징들을 3‑D 청크에 역투영하여, 장면의 기하학을 반영한 밀집 특징 그리드를 만듭니다.
Conditional generation with Trellis.2 – 역투영된 그리드는 사전 학습된 생성 모델(Trellis.2)의 조건 입력으로 사용됩니다. 모델은 해당 청크에 대한 부호 거리 필드(SDF)를 예측하고, 이를 marching cubes 알고리즘을 통해 메쉬로 변환합니다.
Fusion & refinement – 겹치는 청크들을 SDF 값의 단순 평균으로 병합한 뒤, 가벼운 Poisson 기반 스무딩을 적용해 이음새를 제거합니다.
PBR material assignment – 원본 이미지에서 텍스처 맵을 추출해 메쉬에 베이킹함으로써, 바로 렌더링할 수 있는 자산을 생성합니다.

전체 파이프라인은 테스트 시에 어떠한 반복 최적화도 수행하지 않으며, 기존의 다중 뷰 스테레오나 볼류메트릭 퓨전 방법보다 훨씬 빠릅니다.

Results & Findings

Accuracy – ScanNet 및 Matterport3D 벤치마크에서 GenRecon은 Chamfer 거리를 감소시키고, COLMAP + TSDF Fusion 및 Neural Radiance Fields (NeRF)‑기반 재구성 같은 방법에 비해 법선 일관성을 약 16 % 향상시킵니다.
Completeness – 생성적 사전 지식은 순수 기하학 파이프라인이 구멍으로 남기는 가려지거나 누락된 기하(예: 가구 아래 표면)를 채워줍니다.
Visual fidelity – 렌더링 결과는 선명한 가장자리, 현실적인 표면 디테일, 올바른 조명 단서를 보여주며, 이는 PBR‑호환 메쉬 출력 덕분입니다.
Speed – 생성 모델이 청크 단위로 한 번의 전방 패스로 적용되기 때문에, 일반적인 10 m² 방의 재구성은 단일 RTX 4090 GPU에서 2 분 미만에 완료됩니다.

실용적 시사점

게임 및 VR 자산 제작 – 실제 방의 사진 몇 장만으로도 제작‑준비가 된 메쉬를 만들 수 있어 수동 모델링 시간을 크게 단축합니다.
로봇공학 및 AR 내비게이션 – 고충실도, 완전한 씬 맵은 실내 환경에서 작동하는 자율 에이전트의 장애물 회피 및 객체 상호작용을 향상시킵니다.
디지털 트윈 및 BIM – 기존 사진 아카이브를 편집 가능한 3‑D 모델로 업그레이드하여 리모델링, 에너지 분석, 시설 관리 등을 용이하게 합니다.
콘텐츠 파이프라인 – 출력이 표준 PBR 메쉬이므로 Unity, Unreal, WebGL 워크플로에 별도의 변환 단계 없이 바로 연결됩니다.

제한 사항 및 향후 작업

정확한 카메라 포즈에 대한 의존성 – 투영 단계는 신뢰할 수 있는 포즈 추정을 전제로 하며, 노이즈가 있는 포즈 데이터는 컨디셔닝 신호를 저하시킬 수 있습니다.
생성적 사전 편향 – Trellis.2가 특정 객체 분포에 대해 학습되었기 때문에, 특이하거나 매우 복잡한 장면이 보다 일반적인 실내 레이아웃으로 “정규화”될 수 있습니다.
청크 크기 트레이드오프 – 큰 청크는 더 넓은 컨텍스트를 포착하지만 메모리 사용량이 증가합니다; 매우 큰 공간에 대한 최적의 크기를 찾는 것은 아직 해결되지 않은 엔지니어링 과제입니다.
향후 방향 – 저자들은 학습된 포즈 정제 통합, 생성적 사전을 야외 또는 혼합 현실 도메인으로 확장, 그리고 전체 건물 재구성을 처리하기 위한 계층적 청크 방식을 탐구할 것을 제안합니다.

저자

Katharina Schmid
Nicolas von Lützow
Jozef Hladký
Angela Dai
Matthias Nießner

논문 정보

arXiv ID: 2605.23888v1
분류: cs.CV
출판일: 2026년 5월 22일
PDF: PDF 다운로드

[Paper] GenRecon: Generative Priors를 연결한 멀티뷰 3D 씬 재구성

개요

주요 기여

Methodology

Results & Findings

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견