[Paper] Edit3r: 희소한 비포즈 이미지로부터 즉시 3D 씬 편집
발행: (2026년 1월 1일 오전 03:59 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.25071v1
Overview
Edit3r은 새로운 피드‑포워드 시스템으로, 단일 전방 패스에서 3D 장면을 재구성하고 사용자 주도 편집을 적용할 수 있습니다, 입력 이미지가 희소하고 정렬되지 않았으며 이미 2‑D 편집 도구로 변경된 경우에도 가능합니다. 기존 작업을 지배하는 비용이 많이 드는 씬당 최적화를 우회함으로써, Edit3r은 AR/VR, 게임 및 시각 효과 파이프라인을 구축하는 개발자에게 실시간 포토리얼리스틱 3D 편집을 가능하게 합니다.
주요 기여
- Instant 3D reconstruction & editing: 소수의 포즈가 지정되지 않은, 시점이 일관되지 않은 이미지에서 즉시 3D 재구성 및 편집을 수행 – 반복 최적화나 포즈 추정이 필요 없음.
- Cross‑view consistent supervision: SAM2 기반 재색칠 파이프라인을 통해 자동으로 편집된 다중 시점 훈련 쌍을 생성합니다.
- Asymmetric input strategy: 재색칠된 기준 뷰와 원시 보조 뷰를 결합하여 네트워크가 서로 다른 관측을 정렬하도록 학습합니다.
- DL3DV‑Edit‑Bench: 3D 편집 품질 및 속도를 체계적으로 평가하기 위한 새로운 벤치마크(20개 씬, 4가지 편집 유형, 총 100개 편집)입니다.
- State‑of‑the‑art performance: 최신 베이스라인보다 높은 의미 정렬 및 3D 일관성을 제공하면서 실행 속도는 수 배 빠릅니다.
방법론
-
데이터 준비
- DL3DV 데이터셋의 편집되지 않은 다중 뷰 이미지를 시작점으로 사용합니다.
- SAM2‑구동 재색칠 단계를 적용하여 2‑D 편집(예: “벽을 빨간색으로 만들기”)을 모든 뷰에 일관되게 전파하고, 의사‑정답 편집 세트를 생성합니다.
-
네트워크 아키텍처
- 단일 인코더‑디코더가 비대칭 번들을 입력으로 받습니다: 하나의 재색칠된 기준 뷰와 여러 개의 원시 뷰.
- 인코더는 이질적인 관측들을 병합하는 방법을 학습하고, 디코더는 이미 지시된 편집을 포함한 NeRF‑스타일 볼류메트릭 필드를 예측합니다.
-
학습 목표
- 렌더링된 새로운 뷰와 SAM2‑재색칠 감독 사이의 광도 손실은 교차 뷰 일관성을 보장합니다.
- 시맨틱 정렬 손실(CLIP 임베딩 사용)은 편집된 기하학이 텍스트 지시와 일치하도록 장려합니다.
-
추론
- 사용자는 희소 사진 집합(포즈 정보 없음)과 텍스트 편집(또는 InstructPix2Pix와 같은 도구로 만든 2‑D 편집 이미지)을 제공합니다.
- 모델은 편집이 반영된 렌더링 가능한 3‑D 표현을 즉시 출력하여, 이후 렌더링이나 인터랙션에 바로 사용할 수 있습니다.
결과 및 발견
| Metric | Edit3r | Prior Optim‑Based Methods |
|---|---|---|
| Semantic Alignment (CLIP‑Score) | 0.78 | 0.62 |
| 3‑D Consistency (Multi‑View PSNR) | 28.4 dB | 24.1 dB |
| Inference Time (per scene) | ≈0.3 s | ≈30 s – 5 min |
- 정성적 예시들은 Edit3r가 색상을 정확히 변경하고, 객체를 추가하거나 제거하면서도 보이지 않는 시점들에서 기하학과 조명을 유지한다는 것을 보여줍니다.
- 모델은 학습 중 보지 못한 편집에도 일반화됩니다(예: InstructPix2Pix의 스타일화된 스케치). 이는 다양한 2‑D 편집 파이프라인에 대한 강인함을 확인시켜 줍니다.
- 새롭게 공개된 DL3DV‑Edit‑Bench에서 Edit3r는 색상 변경, 텍스처 교체, 객체 추가, 객체 제거 네 가지 편집 카테고리 모두에서 기존 방법들을 지속적으로 능가합니다.
실용적 함의
- 실시간 AR/VR 콘텐츠 제작: 개발자는 최종 사용자가 방의 사진을 몇 장 찍고 “소파를 파란색으로 바꿔”라고 입력하면 즉시 렌더링이나 물리 시뮬레이션에 사용할 수 있는 3‑D 씬을 얻을 수 있다.
- 게임 에셋 파이프라인: 아티스트는 수동으로 리토폴로지를 하거나 텍스처를 다시 베이킹하지 않고도 레벨 편집을 빠르게 프로토타이핑할 수 있다; 피드‑포워드 모델이 무거운 작업을 처리한다.
- 시각 효과 및 후반 작업: 현장 촬영 영상을 실시간으로 편집할 수 있어 세트 확장이나 매트‑페인팅 조정에 대한 빠른 반복이 가능하다.
- 기존 2‑D 편집기와의 통합: Edit3r가 InstructPix2Pix와 같은 도구의 출력과 함께 작동하기 때문에 스튜디오는 익숙한 2‑D 워크플로우를 유지하면서 최소한의 엔지니어링 노력으로 3‑D 기능을 얻을 수 있다.
제한 사항 및 향후 작업
- Sparse view requirement: 모델은 포즈가 지정되지 않은 입력을 어느 정도 견디지만, 매우 희소하거나 크게 가려진 캡처는 기하학 품질을 저하시킬 수 있습니다.
- Edit scope: 현재 학습은 네 가지 편집 유형을 다루며, 보다 복잡한 구조적 변화(예: 기하 변형)는 여전히 도전적인 과제로 남아 있습니다.
- Resolution: 렌더링 출력은 네트워크의 기본 voxel 해상도에 제한되며, 더 높은 충실도의 렌더링을 위해서는 다운스트림 업샘플링 단계가 필요합니다.
- Future directions: 저자들이 제시한 향후 방향으로는 비대칭 입력 패러다임을 비디오 스트림에 적용하도록 확장하고, 가장자리 경우의 정확성을 높이기 위해 명시적 포즈 추정을 도입하며, 전체 장면 기하학 편집을 지원하도록 모델을 확장하는 것이 포함됩니다.
저자
- Jiageng Liu
- Weijie Lyu
- Xueting Li
- Yejie Guo
- Ming-Hsuan Yang
논문 정보
- arXiv ID: 2512.25071v1
- 분류: cs.CV
- 출판일: 2025년 12월 31일
- PDF: PDF 다운로드