[Paper] WildRayZer: Self-supervised 대규모 뷰 합성, 동적 환경에서

발행: (2026년 1월 16일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.10716v1

번역하려는 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 마크다운 형식은 그대로 유지됩니다.)

Overview

WildRayZer는 카메라와 객체가 모두 움직이는 경우에도 장면의 새로운 뷰를 합성할 수 있는 자체 지도 학습 파이프라인을 소개합니다. 일시적인(움직이는) 요소를 자동으로 감지하고 마스킹함으로써 전통적인 정적 장면 뷰 합성 모델에서 발생하는 고스트 현상과 기하학 오류를 피하고, 실제 동적 영상에서도 고품질의 피드포워드 NVS를 가능하게 합니다.

Key Contributions

  • Self‑supervised transient detection: 정적 전용 렌더러를 사용해 잔차를 생성하고 이를 의사 모션 마스크로 활용함으로써 수동 주석이 필요 없게 함.
  • Motion‑aware token gating: 입력 토큰을 마스킹하고 손실 그래디언트를 게이트하여 네트워크가 정적 배경 학습에 집중하도록 하면서도 동적 전경을 처리함.
  • Large‑scale dynamic dataset: Dynamic RealEstate10K (D‑RE10K) (≈15 K개의 캐주얼 비디오 시퀀스)와 일치하는 벤치마크 D‑RE10K‑iPhone을 구축하여 순간‑인식 NVS를 평가함.
  • Single‑pass feed‑forward inference: 비용이 많이 드는 씬별 최적화 없이도 최첨단 품질을 달성하며, 최적화 기반 및 기존 피드‑포워드 베이스라인을 모두 능가함.

방법론

  1. 정적‑전용 렌더링: 기존 NeRF‑스타일 정적 렌더러는 입력 뷰에서 강체 배경을 예측합니다.
  2. 잔차 분석: 렌더링된 배경과 원본 이미지 사이의 차이는 정적 기하학으로 설명할 수 없는 영역—즉, 움직이는 객체, 조명 변화 등을 강조합니다.
  3. 의사 모션 마스크: 이러한 잔차를 임계값 처리하여 일시적인 내용의 대략적인 마스크를 생성합니다.
  4. 증류된 모션 추정기: 의사 마스크는 경량 모션‑추정 네트워크를 학습시켜 새로운 뷰에 대해 픽셀별 모션 확률을 예측합니다.
  5. 토큰 마스킹 및 그래디언트 게이팅: 학습 중에 고모션 영역에 해당하는 토큰을 마스킹하고, 해당 영역에 대한 손실 그래디언트를 차단하여 모델이 강인한 배경 보완을 학습하도록 하면서 필요 시 움직이는 객체를 렌더링할 수 있는 능력을 유지합니다.
  6. 엔드‑투‑엔드 자체‑지도: 전체 파이프라인은 실제 마스크나 깊이 맵 없이도 분석‑합성 루프만을 이용해 학습됩니다.

결과 및 발견

  • 정량적 향상: D‑RE10K‑iPhone에서 WildRayZer는 가장 강력한 베이스라인 대비 PSNR/SSIM을 각각 약 1.5 dB와 0.04만큼 향상시키며, 동적 영역에서 유령 현상을 감소시킵니다.
  • 일시적 제거: 증류된 모션 마스크는 감독 없이 생성되었음에도 불구하고 수동으로 주석된 모션 영역과 >85 % IoU를 달성합니다.
  • 속도: 단일 전방 패스(RTX 3080에서 뷰당 ≈0.12 초)로 전체 해상도의 새로운 뷰를 생성하며, 경쟁 방법들의 수분 단위 최적화 루프와 비교됩니다.
  • 일반화: D‑RE10K에서 훈련된 모델은 다른 동적 비디오 소스(예: 손에 들고 촬영한 스마트폰 투어)에도 잘 전이되어 시각적 충실도를 유지합니다.

실용적 의미

  • 실시간 AR/VR 콘텐츠 제작: 개발자는 움직이는 사람이나 애완동물을 수작업으로 정리할 필요 없이 일반적인 핸드헬드 영상으로 몰입형 3‑D 워크스루를 생성할 수 있다.
  • 로봇을 위한 동적 장면 재구성: 로봇은 움직이는 장애물을 무시하면서 환경의 신뢰할 수 있는 정적 지도를 구축할 수 있어 내비게이션 및 SLAM의 견고성을 향상시킨다.
  • 게임 및 영화용 콘텐츠 파이프라인: 아티스트는 현장 촬영 비디오를 배경 플레이트로 재활용하면서 크루 움직임과 소품을 자동으로 제거할 수 있다.
  • 확장 가능한 클라우드 서비스: 추론이 피드‑포워드 방식이므로 클라우드 기반 뷰‑합성 API는 적당한 GPU 예산으로 대규모 동적 장면 요청을 처리할 수 있다.

제한 사항 및 향후 연구

  • Coarse motion masks: 잔차 기반 마스크는 미세한 움직임(예: 작은 그림자)을 놓치거나 반정적 객체를 과도하게 마스킹하여 가끔 세부 사항이 손실될 수 있습니다.
  • Assumption of dominant static background: 시야의 대부분이 동적인 장면(예: 혼잡한 축제)에서는 정적 렌더러 백본이 여전히 어려움을 겪습니다.
  • Dataset bias: D‑RE10K는 실내/실외 주거 공간에 초점을 맞추고 있어, 보다 넓은 도메인(산업 현장, 항공 촬영 등)에 대한 탐색이 필요합니다.
  • Future directions: 저자들은 시간적 일관성 손실을 통합하고, 다중 스케일 어텐션을 통해 마스크 세분성을 개선하며, 전체 장면 변형(예: 옷감 시뮬레이션)을 처리하도록 프레임워크를 확장할 것을 제안합니다.

저자

  • Xuweiyi Chen
  • Wentao Zhou
  • Zezhou Cheng

논문 정보

  • arXiv ID: 2601.10716v1
  • 카테고리: cs.CV
  • 출판일: 2026년 1월 15일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »