[Paper] Kiwi-Edit: 지시와 레퍼런스 가이드를 통한 다목적 비디오 편집

발행: (2026년 3월 3일 오전 03:46 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2603.02175v1

개요

이 논문은 Kiwi-Edit이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 개발자가 자연어 명령과 시각적 참조 단서(예: 이미지 또는 짧은 클립)를 결합하여 비디오를 편집할 수 있게 합니다. 방대한 합성 데이터셋(RefVIE)과 통합 모델 아키텍처를 생성함으로써, 저자들은 기존의 명령어만 사용하는 방법보다 훨씬 더 정밀하고 제어 가능한 비디오 편집을 달성했습니다.

주요 기여

  • 확장 가능한 데이터 파이프라인: 기존 비디오‑편집 쌍을 최첨단 이미지 생성기를 사용해 고품질 사중항(원본 비디오, 지시문, 참조 이미지, 편집된 비디오)으로 변환합니다.
  • RefVIE 데이터셋: 다양한 편집 시나리오를 포괄하는 200K 훈련 사중항을 공개적으로 제공.
  • RefVIE‑Bench: 지시문 및 참조 비디오 편집을 위한 포괄적인 벤치마크 스위트(자동 메트릭 + 인간 평가).
  • Kiwi‑Edit 아키텍처: 학습 가능한 쿼리 토큰(텍스트 지시문용)과 참조 이미지에서 추출한 잠재 시각 특징을 결합하여 세밀한 의미적 가이드를 제공합니다.
  • 점진적 다단계 학습: 먼저 지시문 수행을 학습하고, 이후 참조 충실도를 정제하여 큰 성능 향상을 달성합니다.

방법론

  1. 데이터 생성

    • 공개적으로 이용 가능한 비디오‑편집 데이터셋(예: VGG‑Sound, DAVIS)에서 시작합니다.
    • 각 소스‑타깃 비디오 쌍에 대해, 편집 지시문을 사용해 확산 이미지 모델(Stable Diffusion)을 프롬프트하여 reference scaffold를 합성합니다.
    • 결과는 4중항으로 구성됩니다: (source video, textual instruction, reference image, edited video).
    • 자동 품질 검사(CLP 유사도, 움직임 일관성)를 통해 저품질 샘플을 걸러내어 RefVIE 코퍼스를 생성합니다.
  2. 모델 아키텍처 (Kiwi‑Edit)

    • Backbone: 비디오 트랜스포머 인코더가 소스 프레임을 시공간 토큰으로 처리합니다.
    • Instruction Encoder: 고정된 언어 모델(예: T5)이 비디오 토큰에 주목하는 학습 가능한 쿼리 임베딩을 생성합니다.
    • Reference Encoder: CNN‑ViT 하이브리드가 레퍼런스 이미지에서 잠재 시각 특징을 추출하고, 이를 교차‑어텐션 레이어의 추가 키/값으로 삽입합니다.
    • Decoder: 조건부 확산 모델이 편집된 비디오 프레임을 예측하며, 이는 instruction query와 reference feature 모두에 의해 안내됩니다.
  3. 학습 커리큘럼

    • Stage 1 – Instruction‑only: 레퍼런스 조건 없이 RefVIE에서 학습하여 기본 편집 의미를 학습합니다.
    • Stage 2 – Reference‑aware: 전체 4중항을 사용해 미세조정하고, 레퍼런스 손실(CLP 기반 유사도)의 가중치를 점진적으로 증가시킵니다.
    • Stage 3 – Multi‑modal refinement: 지각 비디오 품질(VMAF)과 시간적 일관성(광류 기반 손실)을 공동으로 최적화합니다.

결과 및 발견

Metric (higher is better)Instruction‑Only BaselineKiwi‑Edit (full)
CLIP‑Text↔Video similarity0.620.78
CLIP‑Image↔Video similarity (reference fidelity)0.480.71
FVD (lower is better)210112
Human preference (pairwise)32 %68 %
  • Instruction adherence가 약 25 % 향상되었습니다 (CLIP‑Text 점수).
  • Reference fidelity가 약 45 % 상승했으며 (CLIP‑Image 점수), 편집된 비디오가 제공된 레퍼런스와 시각적으로 이전 방법보다 훨씬 더 잘 일치합니다.
  • Temporal coherence는 flow‑aware 손실 덕분에 강하게 유지되며 눈에 띄는 깜빡임이 없습니다.

Ablation 연구에서는 (1) 레퍼런스 인코더가 이미지 유사도에 가장 크게 기여하고, (2) progressive curriculum이 end‑to‑end 학습보다 FVD에서 약 10 % 더 우수함을 확인했습니다.

Practical Implications

  • Content creation pipelines: 비디오 편집자는 이제 텍스트로 what을 지정하고(e.g., “make the sky sunset‑orange”), 레퍼런스 이미지를 통해 how 보일지 지정할 수 있어 수동 키프레이밍을 크게 줄일 수 있다.
  • Rapid prototyping for AR/VR: 개발자는 레퍼런스 자산을 교체하여 실시간으로 씬 변형을 생성할 수 있으며, 이는 게임 레벨 디자인이나 가상 프로덕션에 유용하다.
  • Automated post‑production: 브랜드는 스타일 레퍼런스를 제공함으로써 캠페인 전반에 걸친 시각적 일관성을 유지할 수 있고, Kiwi‑Edit은 원본 영상을 그에 맞게 조정한다.
  • Open‑source ecosystem: 코드, 데이터셋, 사전 학습된 가중치를 공개함으로써 팀은 도메인 특화 자산(예: 의료 영상 비디오)으로 모델을 미세 조정할 수 있으며, 대규모 짝지어진 데이터를 수집할 필요가 없다.

제한 사항 및 향후 작업

  • Reference quality dependence: 모델은 레퍼런스 이미지가 원하는 시각적 속성을 정확히 포착한다고 가정합니다; 모호하거나 저해상도 레퍼런스는 성능을 저하시킵니다.
  • Computational cost: 전체 해상도 비디오(1080p)에서 diffusion 디코더를 훈련하는 것은 메모리 집약적이며; 현재 추론은 단일 A100에서 약 2 fps로 실행됩니다.
  • Limited editing scope: 색상, 텍스처, 객체 삽입에는 효과적이지만, 시스템은 대규모 기하학적 변환(예: 카메라 시점 변경)에는 어려움을 겪습니다.
  • Future directions suggested by the authors include:
    1. 3‑D 레퍼런스 단서(깊이 맵, 포인트 클라우드)를 통합하여 공간 인식 편집을 수행합니다.
    2. 실시간 배포를 위한 경량 트랜스포머 변형을 탐색합니다.
    3. 파이프라인을 다중 모달 레퍼런스(오디오 + 비주얼)로 확장합니다.

저자

  • Yiqi Lin
  • Guoqiang Liang
  • Ziyun Zeng
  • Zechen Bai
  • Yanzhe Chen
  • Mike Zheng Shou

논문 정보

  • arXiv ID: 2603.02175v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 3월 2일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »