[Paper] Kiwi-Edit: 지시와 레퍼런스 가이드를 통한 다목적 비디오 편집
Source: arXiv - 2603.02175v1
개요
이 논문은 Kiwi-Edit이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 개발자가 자연어 명령과 시각적 참조 단서(예: 이미지 또는 짧은 클립)를 결합하여 비디오를 편집할 수 있게 합니다. 방대한 합성 데이터셋(RefVIE)과 통합 모델 아키텍처를 생성함으로써, 저자들은 기존의 명령어만 사용하는 방법보다 훨씬 더 정밀하고 제어 가능한 비디오 편집을 달성했습니다.
주요 기여
- 확장 가능한 데이터 파이프라인: 기존 비디오‑편집 쌍을 최첨단 이미지 생성기를 사용해 고품질 사중항(원본 비디오, 지시문, 참조 이미지, 편집된 비디오)으로 변환합니다.
- RefVIE 데이터셋: 다양한 편집 시나리오를 포괄하는 200K 훈련 사중항을 공개적으로 제공.
- RefVIE‑Bench: 지시문 및 참조 비디오 편집을 위한 포괄적인 벤치마크 스위트(자동 메트릭 + 인간 평가).
- Kiwi‑Edit 아키텍처: 학습 가능한 쿼리 토큰(텍스트 지시문용)과 참조 이미지에서 추출한 잠재 시각 특징을 결합하여 세밀한 의미적 가이드를 제공합니다.
- 점진적 다단계 학습: 먼저 지시문 수행을 학습하고, 이후 참조 충실도를 정제하여 큰 성능 향상을 달성합니다.
방법론
-
데이터 생성
- 공개적으로 이용 가능한 비디오‑편집 데이터셋(예: VGG‑Sound, DAVIS)에서 시작합니다.
- 각 소스‑타깃 비디오 쌍에 대해, 편집 지시문을 사용해 확산 이미지 모델(Stable Diffusion)을 프롬프트하여 reference scaffold를 합성합니다.
- 결과는 4중항으로 구성됩니다: (source video, textual instruction, reference image, edited video).
- 자동 품질 검사(CLP 유사도, 움직임 일관성)를 통해 저품질 샘플을 걸러내어 RefVIE 코퍼스를 생성합니다.
-
모델 아키텍처 (Kiwi‑Edit)
- Backbone: 비디오 트랜스포머 인코더가 소스 프레임을 시공간 토큰으로 처리합니다.
- Instruction Encoder: 고정된 언어 모델(예: T5)이 비디오 토큰에 주목하는 학습 가능한 쿼리 임베딩을 생성합니다.
- Reference Encoder: CNN‑ViT 하이브리드가 레퍼런스 이미지에서 잠재 시각 특징을 추출하고, 이를 교차‑어텐션 레이어의 추가 키/값으로 삽입합니다.
- Decoder: 조건부 확산 모델이 편집된 비디오 프레임을 예측하며, 이는 instruction query와 reference feature 모두에 의해 안내됩니다.
-
학습 커리큘럼
- Stage 1 – Instruction‑only: 레퍼런스 조건 없이 RefVIE에서 학습하여 기본 편집 의미를 학습합니다.
- Stage 2 – Reference‑aware: 전체 4중항을 사용해 미세조정하고, 레퍼런스 손실(CLP 기반 유사도)의 가중치를 점진적으로 증가시킵니다.
- Stage 3 – Multi‑modal refinement: 지각 비디오 품질(VMAF)과 시간적 일관성(광류 기반 손실)을 공동으로 최적화합니다.
결과 및 발견
| Metric (higher is better) | Instruction‑Only Baseline | Kiwi‑Edit (full) |
|---|---|---|
| CLIP‑Text↔Video similarity | 0.62 | 0.78 |
| CLIP‑Image↔Video similarity (reference fidelity) | 0.48 | 0.71 |
| FVD (lower is better) | 210 | 112 |
| Human preference (pairwise) | 32 % | 68 % |
- Instruction adherence가 약 25 % 향상되었습니다 (CLIP‑Text 점수).
- Reference fidelity가 약 45 % 상승했으며 (CLIP‑Image 점수), 편집된 비디오가 제공된 레퍼런스와 시각적으로 이전 방법보다 훨씬 더 잘 일치합니다.
- Temporal coherence는 flow‑aware 손실 덕분에 강하게 유지되며 눈에 띄는 깜빡임이 없습니다.
Ablation 연구에서는 (1) 레퍼런스 인코더가 이미지 유사도에 가장 크게 기여하고, (2) progressive curriculum이 end‑to‑end 학습보다 FVD에서 약 10 % 더 우수함을 확인했습니다.
Practical Implications
- Content creation pipelines: 비디오 편집자는 이제 텍스트로 what을 지정하고(e.g., “make the sky sunset‑orange”), 레퍼런스 이미지를 통해 how 보일지 지정할 수 있어 수동 키프레이밍을 크게 줄일 수 있다.
- Rapid prototyping for AR/VR: 개발자는 레퍼런스 자산을 교체하여 실시간으로 씬 변형을 생성할 수 있으며, 이는 게임 레벨 디자인이나 가상 프로덕션에 유용하다.
- Automated post‑production: 브랜드는 스타일 레퍼런스를 제공함으로써 캠페인 전반에 걸친 시각적 일관성을 유지할 수 있고, Kiwi‑Edit은 원본 영상을 그에 맞게 조정한다.
- Open‑source ecosystem: 코드, 데이터셋, 사전 학습된 가중치를 공개함으로써 팀은 도메인 특화 자산(예: 의료 영상 비디오)으로 모델을 미세 조정할 수 있으며, 대규모 짝지어진 데이터를 수집할 필요가 없다.
제한 사항 및 향후 작업
- Reference quality dependence: 모델은 레퍼런스 이미지가 원하는 시각적 속성을 정확히 포착한다고 가정합니다; 모호하거나 저해상도 레퍼런스는 성능을 저하시킵니다.
- Computational cost: 전체 해상도 비디오(1080p)에서 diffusion 디코더를 훈련하는 것은 메모리 집약적이며; 현재 추론은 단일 A100에서 약 2 fps로 실행됩니다.
- Limited editing scope: 색상, 텍스처, 객체 삽입에는 효과적이지만, 시스템은 대규모 기하학적 변환(예: 카메라 시점 변경)에는 어려움을 겪습니다.
- Future directions suggested by the authors include:
- 3‑D 레퍼런스 단서(깊이 맵, 포인트 클라우드)를 통합하여 공간 인식 편집을 수행합니다.
- 실시간 배포를 위한 경량 트랜스포머 변형을 탐색합니다.
- 파이프라인을 다중 모달 레퍼런스(오디오 + 비주얼)로 확장합니다.
저자
- Yiqi Lin
- Guoqiang Liang
- Ziyun Zeng
- Zechen Bai
- Yanzhe Chen
- Mike Zheng Shou
논문 정보
- arXiv ID: 2603.02175v1
- 분류: cs.CV, cs.AI
- 출판일: 2026년 3월 2일
- PDF: PDF 다운로드