[Paper] 훈련 없이 비디오 콘텐츠, 액션 및 다이나믹을 다목적으로 편집

발행: (2026년 3월 19일 AM 02:50 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.17989v1

개요

이 논문은 DynaEdit이라는 훈련‑무료 기법을 제시한다. 이 기법은 기존에 사전 학습된 텍스트‑투‑비디오 diffusion 모델을 활용하여 실제 비디오를 편집할 수 있게 해준다—동작을 변경하거나, 상호작용하는 객체를 추가하거나, 전역 효과를 적용하는 등. 비용이 많이 드는 작업‑특정 훈련 데이터를 생략함으로써, DynaEdit은 대부분의 개발자에게 이전에 접근하기 어려웠던 유연하고 고품질의 비디오 조작을 가능하게 한다.

핵심 기여

  • 학습이 필요 없는 편집 파이프라인으로, 모든 기존 텍스트‑투‑비디오 확산 모델과 함께 사용할 수 있음(모델‑불가지론).
  • 역전파가 필요 없는 접근법으로 사전 학습된 모델의 내부 가중치를 수정하지 않아 원래 성능을 유지함.
  • 새로운 안정화 메커니즘으로 저주파 정렬 오류와 고주파 진동을 제거, 확산 기반 비디오 편집의 일반적인 문제를 해소함.
  • 동역학 편집 능력 입증, 포함:
    • 인간 또는 객체 행동 변경(예: “사람이 점프하도록 만들기”).
    • 장면과 물리적으로 상호작용하는 새로운 엔티티 삽입(예: “테이블 위에서 튀는 공 추가”).
    • 전역 장면 변환 적용(예: “낮을 밤으로 바꾸기”).
  • 최신 수준의 성능을 도전적인 텍스트 기반 비디오 편집 벤치마크에서 달성, 학습 기반 및 기타 학습‑무료 베이스라인을 모두 능가함.

방법론

  1. Base Model Selection – DynaEdit은 텍스트 프롬프트로부터 광학 흐름(모션 필드)을 예측하는 사전 학습된 텍스트‑to‑비디오 디퓨전 모델을 아무 것이든 시작점으로 사용합니다.

  2. Inversion‑Free Prompt Conditioning – 많은 기존 연구에서 비용이 많이 드는 비디오를 모델의 잠재 공간으로 역전시키는 단계 대신, DynaEdit은 원하는 텍스트 프롬프트를 디퓨전 과정에 직접 주입하면서 원본 비디오의 잠재 표현은 그대로 유지합니다.

  3. Alignment & Jitter Mitigation

    • Low‑frequency misalignment (전체 장면의 드리프트)는 global motion alignment module을 사용해 편집된 흐름의 거친 궤적을 원본 비디오와 맞춤으로써 교정합니다.
    • High‑frequency jitter (프레임‑간 깜박임)는 temporal consistency filter로 억제하여 연속적인 흐름 필드 간의 부드러움을 강제합니다.
  4. Iterative Refinement – 편집된 흐름을 사전 학습된 비디오 디코더를 이용해 픽셀 공간으로 다시 렌더링한 뒤, 몇 차례의 정제 단계에 걸쳐 디퓨전 루프에 다시 입력합니다. 이를 통해 새로 추가된 객체가 물리 법칙을 따르고 기존 요소와 타당하게 상호작용하도록 보장합니다.

  5. Model‑Agnostic Wrapper – 위 모든 과정은 디퓨전 모델을 둘러싼 얇은 래퍼로 구현되어, 모델의 가중치나 아키텍처를 변경할 필요가 없습니다.

결과 및 발견

작업지표 (높을수록 좋음)DynaEdit vs. 기존 최고
동작 대체 (예: “run → walk”)CLIP‑VideoScore ↑ 0.78 → 0.91+0.13
상호작용이 있는 객체 삽입FVD ↓ 210 → 150-60
전역 장면 변환 (day ↔ night)사용자 연구 선호도 ↑ 62% → 84%+22%
  • 시각적 품질: 편집된 비디오는 선명한 텍스처와 현실적인 움직임을 유지하며 눈에 띄는 깜박임이 없습니다.
  • 시간적 일관성: 정렬 및 지터 모듈은 단순 확산 편집에 비해 프레임별 드리프트를 > 80 % 감소시킵니다.
  • 일반화: DynaEdit은 작업별 미세 조정에 의존하지 않기 때문에 추가 데이터 없이도 다양한 분야(스포츠, 요리, 실내 장면)에서 작동합니다.

Practical Implications

  • Content creation pipelines – 비디오 편집자와 모션 디자이너는 이제 일반 텍스트를 사용해 복잡한 편집(예: “자동차를 벽에 충돌하는 자전거로 교체”)을 스크립트화할 수 있어 수동 로토스코핑이나 키프레임 애니메이션 작업을 크게 줄일 수 있습니다.
  • Game and AR/VR asset generation – 개발자는 짧은 게임플레이 클립을 실시간으로 생성·수정하고, 씬의 물리 법칙을 따르는 인터랙티브 소품을 삽입할 수 있어 맞춤 시뮬레이션 코드를 작성할 필요가 없습니다.
  • Automated video personalization – 마케팅 플랫폼은 단일 API 호출만으로 스톡 영상을 다양한 관객에 맞게 자동으로 조정할 수 있습니다(예: 인물의 제스처를 교체하거나 환경과 상호작용하는 브랜드 로고를 추가).
  • Rapid prototyping for research – 맞춤형 비디오 시나리오(예: “움직이는 장애물 추가”)가 필요한 연구자는 별도의 시뮬레이터를 구축하지 않고도 이를 생성할 수 있어 행동 인식과 같은 후속 작업을 위한 데이터 수집을 가속화합니다.

제한 사항 및 향후 작업

  • 흐름 기반 확산 모델에 대한 의존성 – DynaEdit의 품질은 기본 모델이 정확한 optical flow를 예측하는 능력에 달려 있으며, 학습이 충분히 이루어지지 않은 기본 모델은 편집 충실도를 제한합니다.
  • 짧은 클립 중심 – 현재 파이프라인은 몇 초 길이의 클립에 최적화되어 있으며, 더 긴 시퀀스로 확장하려면 추가적인 메모리 효율적인 시간 처리 방식이 필요할 수 있습니다.
  • 물리적 현실감 제약 – 이 방법은 기본적인 움직임 일관성을 보장하지만 완전한 물리 엔진을 통합하지 않으므로, 복잡한 상호작용(예: 유체 역학) 등은 여전히 인공적으로 보일 수 있습니다.
  • 향후 연구 방향으로 저자들은 명시적인 물리 사전지식 통합, 프레임워크를 3‑D 비디오(예: 볼류메트릭 캡처)로 확장, 비전문가가 실시간으로 프롬프트를 만들 수 있는 인터랙티브 UI 도구 탐색 등을 제시했습니다.

저자

  • Vladimir Kulikov
  • Roni Paiss
  • Andrey Voynov
  • Inbar Mosseri
  • Tali Dekel
  • Tomer Michaeli

논문 정보

  • arXiv ID: 2603.17989v1
  • 분류: cs.CV
  • 출판일: 2026년 3월 18일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »