[Paper] SceneMaker: Open-set 3D 씬 생성과 Decoupled De-occlusion 및 Pose Estimation Model

발행: (2025년 12월 12일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10957v1

개요

SceneMaker는 단일 이미지만으로도 3‑D 장면을 생성하는 새로운 방식을 제시합니다. 객체가 크게 가려져 있거나 모델이 한 번도 본 적 없는 카테고리에 속하더라도 가능합니다. “de‑occlusion”(가려진 부분 복원) 단계를 실제 3‑D 재구성 단계와 분리하고, 통합된 포즈 추정 네트워크를 사용함으로써 저자들은 어려운 오픈‑셋 환경에서도 고품질 기하학과 정확한 객체 포즈를 동시에 달성했습니다.

주요 기여

  • 분리된 파이프라인 – de‑occlusion(숨겨진 부분 복원)과 3‑D 객체 생성 과정을 분리하여 각 모듈을 독립적으로 최적화할 수 있게 함.
  • 오픈‑셋 de‑occlusion 모델 – 대규모 이미지 데이터셋과 별도로 구축한 de‑occlusion 데이터셋을 함께 학습시켜 다양한 가림 패턴에 대한 강인한 사전 지식을 제공.
  • 통합 포즈 추정기 – 전역 self‑attention과 지역 cross‑attention을 결합해 객체의 방향과 위치를 동시에 추론, 포즈 정확도를 크게 향상.
  • 오픈‑셋 3‑D 장면 데이터셋 – 보지 못한 카테고리의 객체가 포함된 실내 장면을 혼합한 새로운 벤치마크로, 포즈 모델의 학습 및 평가에 사용.
  • 최첨단 성능 – 기존 표준 실내 데이터셋과 새로 도입된 오픈‑셋 장면 모두에서 우수한 결과를 입증.
  • 공개 릴리스 – 재현성과 후속 연구를 위해 코드, 사전 학습 모델, 데이터셋을 모두 공개.

방법론

  1. De‑occlusion 모듈 – 단일 RGB 이미지를 입력받아 각 가시 객체의 완전(가려지지 않은) 모습을 예측하는 신경망. COCO, OpenImages 등 방대한 이미지 데이터와 특수 제작된 de‑occlusion 데이터셋을 활용해 일반적인 형태와 텍스처 사전 지식을 학습, 보지 못한 객체 클래스에도 전이 가능.
  2. 3‑D 객체 생성 – de‑occlusion 후, 각 객체의 전체 실루엣과 텍스처를 별도의 생성 모델(예: voxel‑ 또는 mesh‑ 기반 네트워크)에 전달해 3‑D 기하학을 재구성. de‑occlusion 단계에서 이미 깨끗한 뷰를 제공하므로 기하학 네트워크는 순수하게 형태 합성에 집중할 수 있음.
  3. 통합 포즈 추정 – 트랜스포머 스타일 아키텍처가 원본 이미지와 de‑occluded 출력을 동시에 처리. 전역 self‑attention은 방 레이아웃 등 장면 수준의 컨텍스트를 포착하고, 지역 cross‑attention은 각 객체 특징을 이미지와 정렬시켜 6‑DoF 포즈를 예측.
  4. 학습 절차 – 세 구성 요소를 각각 사전 학습(이미지 데이터에 대한 de‑occlusion, 합성 3‑D 모델에 대한 기하학, 새로운 오픈‑셋 장면 데이터셋에 대한 포즈)한 뒤, 최종적으로 엔드‑투‑엔드 미세 조정하여 출력이 조화되도록 함.

결과 및 분석

  • 기하학 품질 – 표준 실내 벤치마크(예: ScanNet)에서 SceneMaker가 재구성한 메시는 기존 공동 de‑occlusion 방법에 비해 IoU가 12 % 더 높음.
  • 포즈 정확도 – 통합 포즈 추정기는 회전 중위오차를 9.8°에서 5.3°로, 평행이동 오류를 6.4 cm에서 3.7 cm로 감소시킴(오픈‑셋 장면 테스트 셋 기준).
  • 가림에 대한 강인성 – 객체의 70 %까지 가려져도 분리된 파이프라인은 여전히 인식 가능한 기하학을 복원하지만, 단일 구조 기반 베이스라인은 크게 실패함.
  • 오픈‑셋 일반화 – 학습 중에 보지 못한 카테고리의 객체에 대해서도 SceneMaker는 기본 성능의 80 % 이상을 유지, 다양한 de‑occlusion 사전 지식의 효과를 확인함.

실용적 함의

  • AR/VR 콘텐츠 제작 – 개발자는 복잡한 방의 사진 한 장만으로 전체 3‑D 자산을 생성할 수 있어 수작업 모델링 시간을 크게 단축할 수 있음.
  • 로봇공학 및 내비게이션 – 보지 못한 객체에 대한 정확한 포즈 추정은 동적인 실제 환경에서 자율 에이전트의 장면 이해를 향상시킴.
  • 이커머스 및 가상 피팅 – 소매업체는 사용자가 업로드한 사진으로부터 제품을 재구성할 수 있으며, 제품이 다른 물체 뒤에 부분적으로 가려져 있어도 가능.
  • 게임 개발 – 실제 공간의 사진을 찍어 바로 실내 장면을 프로토타이핑할 수 있음. SceneMaker가 완전 텍스처가 입힌 3‑D 모델을 생성해 게임 엔진에 바로 사용할 수 있게 함.

제한점 및 향후 연구

  • 고품질 de‑occlusion 데이터 의존 – 가림 패턴이 학습 시와 크게 다를 경우(예: 극단적인 투명도) 성능이 급격히 떨어짐.
  • 대규모 실외 장면 확장성 – 현재 실험은 실내 환경에 초점을 맞추고 있어 도시 규모의 실외 장면으로 확장하는 것은 아직 해결되지 않은 과제.
  • 실시간 제약 – 다단계 아키텍처가 지연 시간을 초래해 인터랙티브 애플리케이션에 부적합할 수 있음. 향후 모델 압축이나 공동 추론 최적화 방안을 탐색할 필요가 있음.

SceneMaker의 오픈소스 릴리스는 커뮤니티가 이 아이디어를 기반으로 더 유연하고 강인한 3‑D 장면 생성 기술을 야생 환경에서도 구현할 수 있도록 초대합니다.

저자

  • Yukai Shi
  • Weiyu Li
  • Zihao Wang
  • Hongyang Li
  • Xingyu Chen
  • Ping Tan
  • Lei Zhang

논문 정보

  • arXiv ID: 2512.10957v1
  • 분류: cs.CV, cs.AI
  • 발표일: 2025년 12월 11일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »