[Paper] InfiniDepth: 임의 해상도 및 세밀한 깊이 추정 with Neural Implicit Fields
Source: arXiv - 2601.03252v1
개요
InfiniDepth는 단일 카메라 깊이 추정에서 오랫동안 존재해 온 병목 현상을 해결합니다: 해상도를 제한하고 미세한 기하학적 세부 정보를 놓치는 픽셀‑그리드 출력에 의존한다는 점입니다. 깊이를 연속적인 신경 암시적 필드로 표현함으로써, 저자들은 任意의 2‑D 좌표에서 깊이 쿼리를 가능하게 하여, 임의의 고해상도 지도와 복잡한 구조의 더 선명한 재구성을 열어줍니다. 논문은 또한 이러한 능력을 스트레스‑테스트하기 위한 새로운 4K 합성 벤치마크를 소개합니다.
핵심 기여
- 신경 암시적 깊이 표현 – 경량 로컬 암시적 디코더가 학습하는 연속 필드로 깊이를 재정의하여 임의의 이미지 좌표에서 깊이 쿼리를 가능하게 함.
- 임의 해상도 출력 – 고정 그리드 제약을 없애고, 개발자가 재학습 없이도 4K, 8K 등 원하는 해상도로 깊이를 요청할 수 있음.
- 세밀한 디테일 복원 – 그리드 기반 베이스라인에 비해 얇은 구조물, 가장자리, 텍스처가 풍부한 영역에서 우수한 성능을 입증.
- 고품질 4K 합성 벤치마크 – 다섯 개의 최신 비디오 게임에서 수집한 다양한 실내·실외 장면을 포함, 풍부한 기하학과 사실적인 조명을 제공.
- 다중 작업 이점 – 암시적 깊이 맵이 새로운 시점 합성을 개선하여 큰 시점 변화 시 구멍과 아티팩트를 감소시킴.
방법론
-
Local Implicit Decoder – 네트워크는 표준 CNN 백본의 특징 맵을 받아 각 쿼리 좌표 ((u, v))에 대해 작은 로컬 패치의 특징을 추출합니다. 이 특징들은 작은 MLP에 입력되어 해당 좌표의 깊이 값을 예측합니다.
-
Continuous Querying – 디코더가 연속 좌표의 함수이기 때문에, 깊이는 실시간으로 任意 해상도에서 샘플링될 수 있습니다(예: 양선형 업샘플링을 직접 쿼리로 대체).
-
Training Objective – 모델은 상대 깊이 순위 손실(장면 순서를 유지하기 위해)과 메트릭 L1 손실(절대 스케일을 강제하기 위해)의 조합으로 감독되며, 지역적으로 일관된 표면을 장려하는 스무스니스 정규화 항도 포함됩니다.
-
Benchmark Construction – 게임 엔진을 사용하여 저자들은 4K 해상도의 RGB‑depth 쌍을 렌더링했으며, 정확한 실제 기하학과 다양한 시각적 조건(조명, 재질, 움직임)을 보장했습니다.
결과 및 발견
- 최첨단 정확도 – 새로운 4K 합성 스위트와 기존 실제 데이터셋(예: NYU‑Depth V2, KITTI) 모두에서 InfiniDepth는 표준 깊이 지표(RMSE, δ<1.25)에서 기존 방법보다 5–12% 우수합니다.
- 해상도 스케일링 – 8K 해상도로 조회할 때 모델은 정확도를 유지하지만, 그리드 기반 베이스라인은 저해상도 예측을 업샘플링해야 하므로 급격히 성능이 저하됩니다.
- 세부 디테일 향상 – 엣지 인식 지표에서 얇은 물체(레일, 전선)와 고주파 텍스처에 대해 최대 30% 개선을 보입니다.
- 뷰 합성 – 신경 렌더링 파이프라인에 통합된 암시적 깊이는 구멍 메우기 아티팩트를 40% 감소시키고, ±30° 카메라 이동 시 더 부드러운 새로운 뷰를 제공합니다.
Practical Implications
- Game & VR Development – 개발자는 단일 RGB 프레임만으로 초고해상도 깊이 맵을 생성하여 실시간 효과(예: 깊이 흐림, 오클루전 컬링)를 구현할 수 있으며, 조밀한 깊이 버퍼를 사전 계산할 필요가 없습니다.
- Robotics & AR – 디바이스 내 추론을 통해 카메라의 원시 해상도에서 세밀한 깊이를 생성할 수 있어, 기존 센서가 놓치는 얇은 물체 주변의 장애물 탐지를 향상시킵니다.
- Content Creation Pipelines – 아티스트는 보간 아티팩트 없이 깊이를 업샘플링하여 포스트 프로덕션(예: 합성, 재조명)에 활용할 수 있어, 수동 깊이 편집에 드는 시간을 절약합니다.
- Neural Rendering – 암시적 깊이 필드는 NeRF 스타일 뷰 합성과 원활하게 통합되어, 원격 존재감이나 디지털 트윈을 위한 고품질 새로운 뷰 생성이 가능해집니다.
제한 사항 및 향후 연구
- Inference Overhead – MLP를 통해 각 픽셀을 개별적으로 질의하는 것은 밀집 디코더의 단일 전방 패스보다 느리다; 저자들은 배치를 사용해 이를 완화하지만 실시간 8K 추론은 여전히 현재 GPU에 도전 과제이다.
- Generalization to Unseen Domains – 합성 벤치마크는 다양하지만, 고반사 또는 투명 표면(예: 유리, 물)에서의 성능은 다소 제한적이며, 이는 도메인 적응 학습이 필요함을 시사한다.
- Memory Footprint – 로컬 디코딩을 위한 고해상도 특징 맵 저장은 모바일이나 임베디드 디바이스에 부담을 줄 수 있다. 향후 연구에서는 특징 압축이나 그리드‑암시적 하이브리드 방식을 탐색할 수 있다.
InfiniDepth는 깊이 추정을 이산 그리드에서 연속적인 암시적 필드로 전환하는 것이 단순한 이론적 연습이 아니라, 차세대 시각 컴퓨팅 애플리케이션을 위한 실용적이고 고해상도 깊이를 가능하게 함을 보여준다.
저자
- Hao Yu
- Haotong Lin
- Jiawei Wang
- Jiaxin Li
- Yida Wang
- Xueyang Zhang
- Yue Wang
- Xiaowei Zhou
- Ruizhen Hu
- Sida Peng
논문 정보
- arXiv ID: 2601.03252v1
- Categories: cs.CV
- Published: 2026년 1월 6일
- PDF: PDF 다운로드