[Paper] Smart-Insertion-V: 폐쇄‑루프 피드백 듀얼‑스트림 프레임워크를 통한 포토리얼리스틱 비디오 삽입

발행: 2주 전 (2026년 5월 23일 AM 02:54 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.23891v1

개요

논문에서는 Smart‑Insertion‑V라는 새로운 엔드‑투‑엔드 시스템을 소개한다. 이 시스템은 수동 마스크 없이도 참조 객체(예: 자동차, 사람, 가구)를 비디오에 매끄럽게 삽입하고, 동시에 객체의 시각적 스타일을 주변 장면에 맞게 조정한다. 비디오 합성에 이미지‑스타일 전송을 dual‑stream 아키텍처로 결합함으로써, 저자들은 이전 비디오‑삽입 방법에서 문제였던 “스타일 충돌”을 크게 감소시켜 현실감 있는 플러그‑앤‑플레이 비디오 편집의 길을 열었다.

핵심 기여

Dual‑Stream Framework – 비디오 생성 스트림과 이미지 스타일‑전송 스트림을 동시에 실행하여 이미지 스트림이 실시간으로 비디오 스트림을 안내하도록 함.
Closed‑Loop Feedback – 부분적으로 생성된 비디오를 시스템에 다시 입력하여 삽입 품질을 반복적으로 개선하는 피드백 루프.
Dual‑World‑View RoPE – 조건 신호(예: 움직임 단서 vs. 스타일 단서)를 공간‑시간 오프셋을 통해 분리하는 경량 위치 인코딩 방식으로, 특징 얽힘과 스타일 누수를 방지함.
Decoupled Guidance Module – 고수준 의미 기반을 위해 비전‑언어 모델(VLM)을 활용하면서, 네이티브 텍스트 인코더를 통한 저수준 시간적 안내를 유지함.
Curated Open‑Source Dataset – 다양한 도메인 격차를 가진 마스크‑프리 비디오 삽입 시나리오의 새로운 벤치마크를 커뮤니티에 공개함.

방법론

1. 입력 준비

Source video (배경 클립).
Reference image (삽입될 객체).
선택적 text prompt 로 원하는 배치를 설명 (예: “보도 위에 빨간 자전거”).

2. 이중 스트림

Video Stream: 움직임 신호와 진행 중인 잠재 비디오에 조건화된 프레임을 예측하는 확산 기반 비디오 생성기.
Image Stream: 레퍼런스 이미지에 스타일 전송을 수행하는 병렬 확산 모델로, 소스 비디오의 조명, 색상 팔레트 및 텍스처에 맞는 “스타일링된” 버전을 생성한다.

3. 폐쇄 루프 피드백

각 생성 단계 후, 부분적으로 합성된 비디오가 추가 조건 신호로 두 스트림에 다시 입력되어 시스템이 드리프트를 교정하고 시간적 일관성을 유지하도록 한다.

4. 이중 월드 뷰 RoPE

위치 임베딩을 두 개의 “월드 뷰”로 분할한다: 하나는 움직임/시간 정보용, 다른 하나는 스타일/외관용. 오프셋을 추가해 네트워크가 추가 파라미터 없이 어떤 특징이 어느 스트림에 속하는지 구분할 수 있다.

5. 분리된 가이드

Vision‑Language Model이 텍스트 프롬프트와 시각적 컨텍스트를 파싱해 고수준 의미 마스크(예: “ground”, “road”)를 생성한다.
기본 텍스트 인코더가 저수준 가이드(예: “bright”, “shadow”)를 제공한다.
이 두 가이드 신호는 결합되지만 잠재 공간에서는 별도로 유지되어 시간적 일관성을 보존하면서 의미적 유연성을 허용한다.

6. 학습 및 데이터 큐레이션

저자들은 공개 비디오 데이터셋에서 객체를 자동으로 추출하고, 무작위 스타일 변형을 적용하며, 정답 삽입 쌍을 합성하는 파이프라인을 구축했다.
결과 데이터셋(≈10 k 비디오 클립)은 오픈소스 라이선스로 공개된다.

Results & Findings

지표	기준 (Mask‑Based)	이전 Mask‑Free Methods	Smart‑Insertion‑V
FVD (비디오 품질)	45.2	78.9	31.4
LPIPS (지각 유사도)	0.12	0.21	0.09
스타일 일관성 (사용자 조사)	68 %	54 %	84 %
시간 플리커 (Temporal SSIM)	0.91	0.84	0.95

시각적 품질: 생성된 비디오는 사진처럼 사실적이며, 부드러운 움직임과 눈에 띄는 이음새가 없습니다.
스타일 조화: 듀얼‑스트림 접근 방식은 기존 마스크‑프리 기술에 비해 색상·조명 불일치를 약 30 % 감소시킵니다.
시간적 안정성: 클로즈드‑루프 피드백이 플리커를 크게 줄여, 프레임 간 일관성이 거의 완벽에 가깝습니다.
소거 실험: Dual‑World‑View RoPE를 제거하면 스타일 누수가 심해지고, Decoupled Guidance Module을 제외하면 의미론적 배치 정확도가 떨어집니다.

Practical Implications

Content Creation: 비디오 편집자는 이제 (예: 제품 프로토타입, 가상 캐릭터)와 같은 객체를 고된 로토스코핑이나 수동 색 보정 없이 바로 삽입할 수 있습니다.
AR/VR Production: 실시간 파이프라인은 듀얼 스트림 모델을 활용해 장면 조명을 유지하면서 가상 자산을 라이브 비디오 피드에 삽입할 수 있습니다.
Advertising & E‑commerce: 브랜드는 사용자 생성 비디오(예: “내 새 신발을 이 거리에서 착용”)에 제품을 자동 스타일 적용으로 보여줄 수 있어 개인화가 강화됩니다.
Game Development: 시네마틱 컷신에 전체 씬을 다시 렌더링하지 않고도 동적 소품을 추가할 수 있어 컴퓨팅 자원을 절약합니다.
Open Dataset: 공개된 벤치마크는 개발자에게 마스크 없이 비디오 편집을 연구할 수 있는 준비된 테스트베드를 제공하여 커뮤니티 주도의 개선을 장려합니다.

제한 사항 및 향후 연구

도메인 극단: 참조 객체의 스타일이 급격히 다를 때(예: 만화 vs. 사진실사), 모델은 여전히 완전한 조화를 이루는 데 어려움을 겪는다.
해상도: 실험은 256×256 프레임에 제한되었으며, 4K 비디오로 확장하려면 메모리 효율적인 diffusion 변형이 필요하다.
실시간 제약: 폐쇄 루프 피드백이 지연을 추가하여 소비자 하드웨어에서 실제 실시간 삽입이 어려워진다.
사용자 제어: 텍스트 프롬프트가 배치를 안내하지만, 세밀한 제어(예: 정확한 조명 방향)는 아직 제공되지 않는다.

향후 연구 방향으로는 고해상도 스트림을 위한 보다 효율적인 diffusion 스케줄러 통합, 복잡한 공간 관계를 다룰 수 있도록 VLM 가이던스 확장, 그리고 제작자가 스타일 매개변수를 실시간으로 조정할 수 있는 인터랙티브 UI 도구 탐색이 있다.

저자

Xiao Cao
Yansong Qu
Xiangzhen
Chang
Wen Xiao
Jiakui Hu
Heyuan Li
Jialun Liu
Zhiyong Huang
Xuelong Li

논문 정보

arXiv ID: 2605.23891v1
분류: cs.CV
발행일: 2026년 5월 22일
PDF: Download PDF