[Paper] VOID: 비디오 객체 및 상호작용 삭제
Source: arXiv - 2604.02296v1
개요
논문에서는 VOID라는 새로운 프레임워크를 소개한다. 이 프레임워크는 비디오에서 객체를 제거하면서도 하위 상호작용(예: 충돌, 그림자, 움직임 단서)의 물리적 사실성을 유지한다. 비전‑언어 모델과 비디오 확산 생성기를 결합함으로써, VOID는 객체가 존재하지 않았을 경우 존재했을 법한 “what‑if” 세계를 추론하고 합성할 수 있다—이는 기존의 전통적인 인페인팅 기법을 훨씬 뛰어넘는 능력이다.
주요 기여
- Counterfactual Video Dataset – Kubric 및 HUMOTO 시뮬레이터를 사용하여 대규모 쌍(pair) 데이터셋을 구축했습니다. 각 비디오는 객체와 해당 객체가 제거된 동일 장면의 ground‑truth 버전을 포함하며, 모델이 이후 물리 현상의 변화를 학습하도록 강제합니다.
- Causal Region Detection – 비전‑언어 모델을 활용해 대상 객체뿐 아니라 그에 의존하는 모든 장면 영역(예: 공이 튀는 지점, 바닥에 드리워진 그림자)의 외관이나 움직임을 자동으로 탐지했습니다.
- Physics‑Aware Diffusion Inpainting – 탐지된 인과 영역 마스크를 조건으로 하는 비디오 diffusion 모델을 설계하여, 객체 제거 후에도 시간적으로 일관되고 물리적으로 타당한 프레임을 생성할 수 있게 했습니다.
- Cross‑Domain Validation – 이 접근법이 합성(완벽한 ground truth) 영상과 실제 영상 모두에서 작동함을 입증했으며, 동적 일관성 지표에서 최첨단 비디오 제거 베이스라인을 능가했습니다.
- Open‑Source Baseline – 코드를 비롯해 사전 학습된 가중치와 새로운 데이터셋을 공개하여 인과 비디오 편집에 대한 추가 연구를 촉진했습니다.
방법론
- Data Generation – Kubric을 사용하여 움직이는 물체(예: 공, 자동차)가 있는 3D 씬을 시뮬레이션했습니다. 각 씬마다 HUMOTO는 목표 물체가 제외된 “counterfactual” 버전을 생성했으며, 물리 엔진이 모든 하위 효과(새로운 궤적, 변경된 접촉)를 다시 계산합니다.
- Causal Mask Extraction – 추론 시점에 사전 학습된 비전‑언어 모델(예: CLIP‑기반)이 “remove the red ball”(빨간 공을 제거해라)과 같은 텍스트 프롬프트를 받아 공과 그 미래 상태에 의존하는 모든 픽셀(그림자, 충격 지점)을 포함하는 이진 마스크를 반환합니다.
- Diffusion‑Based Inpainting – 비디오 확산 네트워크(주의 메커니즘이 포함된 시계열 U‑Net)는 원본 비디오와 인과 마스크를 입력으로 받습니다. 확산 과정은 마스크에 의해 안내되어 잠재 프레임을 반복적으로 디노이즈하며, 움직임 연속성을 유지하면서 누락된 콘텐츠를 합성합니다.
- Training Objective – 픽셀 공간의 L2 재구성 손실, VGG 특징을 이용한 지각 손실, 그리고 생성된 프레임에서 비현실적인 속도나 충돌 패턴을 벌점화하는 물리 일관성 손실을 결합합니다.
결과 및 발견
- 정량적 향상 – VOID는 선도적인 비디오 제거 베이스라인과 비교했을 때 Temporal Consistency Error를 약 35 % 감소시키고, Physical Plausibility Score (학습된 분류기)를 약 28 % 감소시켰다.
- 정성적 개선 – 축구공이 벽에 부딪히는 상황과 같이, VOID는 공을 정확히 제거하고 그리고 발생한 움푹 들어간 자국과 먼지 구름까지 지워냈으며, 이전 방법들은 유령 같은 아티팩트를 남겼다.
- 실제 영상에 대한 일반화 – 농구 경기와 교통 영상의 YouTube 클립에서 테스트했을 때, VOID는 여전히 대상 객체를 삭제하고 주변 움직임을 조정했지만, 합성 데이터에 비해 충실도가 약간 감소했다.
- 소거 연구 – 인과 마스크 단계를 제거하면 시간적 깜빡임이 20 % 증가하여 상호작용 영역을 명시적으로 모델링하는 것이 중요함을 확인했다.
Practical Implications
- Content Creation – 비디오 편집자는 이제 원하지 않는 소품(예: 지나가는 사람, 길 잃은 동물)을 물리적 오류를 걱정하지 않고 삭제할 수 있어, 수동 로토스코핑 및 프레임‑별 보정에 소요되는 시간을 절약할 수 있다.
- AR/VR Simulations – 실시간으로 라이브 비디오 스트림에서 가상 객체를 제거하면 몰입형 환경의 물리적 일관성을 유지할 수 있어, 훈련 시뮬레이터나 혼합 현실 게임에 유용하다.
- Safety & Forensics – 분석가는 반사실적 재구성(예: “차가 급커브하지 않았다면?”)을 생성하여 사고 역학을 더 잘 이해할 수 있다.
- Dataset Augmentation – VOID 파이프라인은 기존 비디오 데이터셋의 현실적인 “객체‑없는” 버전을 자동으로 생성하여 행동 인식이나 장면 이해와 같은 하위 작업에 도움이 된다.
제한 사항 및 향후 작업
- Domain Gap – 조명 제어가 되지 않거나 불투명한 가림이 있는 매우 복잡한 실제 장면에서 성능이 떨어지며, 합성‑실제 간 격차를 메우는 것은 여전히 해결되지 않은 과제이다.
- Computation Cost – 확산 과정은 여전히 비교적 느리며(단일 GPU당 프레임당 약 2초), 실시간 응용을 제한한다.
- Causal Reasoning Scope – 현재 비전‑언어 모델은 미세한 상호작용(예: 소리에 의한 진동)을 놓칠 수 있으므로, 향후 작업에서는 멀티모달 단서(오디오, 깊이)와 보다 명시적인 물리 엔진을 통합하는 것을 목표로 한다.
VOID는 장면의 기본 물리를 이해하고 존중하는 비디오 편집 도구를 향한 중요한 단계이며, 보다 스마트한 시각 콘텐츠 파이프라인을 구축하는 개발자들에게 새로운 가능성을 열어준다.
저자
- Saman Motamed
- William Harvey
- Benjamin Klein
- Luc Van Gool
- Zhuoning Yuan
- Ta‑Ying Cheng
논문 정보
- arXiv ID: 2604.02296v1
- 카테고리: cs.CV, cs.AI
- 출판일: 2026년 4월 2일
- PDF: PDF 다운로드