[Paper] 훈련 없이 비디오 콘텐츠, 액션 및 다이나믹을 다목적으로 편집

발행: 1일 전 (2026년 3월 19일 AM 02:50 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.17989v1

개요

이 논문은 DynaEdit이라는 훈련‑무료 기법을 제시한다. 이 기법은 기존에 사전 학습된 텍스트‑투‑비디오 diffusion 모델을 활용하여 실제 비디오를 편집할 수 있게 해준다—동작을 변경하거나, 상호작용하는 객체를 추가하거나, 전역 효과를 적용하는 등. 비용이 많이 드는 작업‑특정 훈련 데이터를 생략함으로써, DynaEdit은 대부분의 개발자에게 이전에 접근하기 어려웠던 유연하고 고품질의 비디오 조작을 가능하게 한다.

핵심 기여

학습이 필요 없는 편집 파이프라인으로, 모든 기존 텍스트‑투‑비디오 확산 모델과 함께 사용할 수 있음(모델‑불가지론).
역전파가 필요 없는 접근법으로 사전 학습된 모델의 내부 가중치를 수정하지 않아 원래 성능을 유지함.
새로운 안정화 메커니즘으로 저주파 정렬 오류와 고주파 진동을 제거, 확산 기반 비디오 편집의 일반적인 문제를 해소함.
동역학 편집 능력 입증, 포함:
- 인간 또는 객체 행동 변경(예: “사람이 점프하도록 만들기”).
- 장면과 물리적으로 상호작용하는 새로운 엔티티 삽입(예: “테이블 위에서 튀는 공 추가”).
- 전역 장면 변환 적용(예: “낮을 밤으로 바꾸기”).
최신 수준의 성능을 도전적인 텍스트 기반 비디오 편집 벤치마크에서 달성, 학습 기반 및 기타 학습‑무료 베이스라인을 모두 능가함.

방법론

Base Model Selection – DynaEdit은 텍스트 프롬프트로부터 광학 흐름(모션 필드)을 예측하는 사전 학습된 텍스트‑to‑비디오 디퓨전 모델을 아무 것이든 시작점으로 사용합니다.
Inversion‑Free Prompt Conditioning – 많은 기존 연구에서 비용이 많이 드는 비디오를 모델의 잠재 공간으로 역전시키는 단계 대신, DynaEdit은 원하는 텍스트 프롬프트를 디퓨전 과정에 직접 주입하면서 원본 비디오의 잠재 표현은 그대로 유지합니다.
Alignment & Jitter Mitigation
- Low‑frequency misalignment (전체 장면의 드리프트)는 global motion alignment module을 사용해 편집된 흐름의 거친 궤적을 원본 비디오와 맞춤으로써 교정합니다.
- High‑frequency jitter (프레임‑간 깜박임)는 temporal consistency filter로 억제하여 연속적인 흐름 필드 간의 부드러움을 강제합니다.
Iterative Refinement – 편집된 흐름을 사전 학습된 비디오 디코더를 이용해 픽셀 공간으로 다시 렌더링한 뒤, 몇 차례의 정제 단계에 걸쳐 디퓨전 루프에 다시 입력합니다. 이를 통해 새로 추가된 객체가 물리 법칙을 따르고 기존 요소와 타당하게 상호작용하도록 보장합니다.
Model‑Agnostic Wrapper – 위 모든 과정은 디퓨전 모델을 둘러싼 얇은 래퍼로 구현되어, 모델의 가중치나 아키텍처를 변경할 필요가 없습니다.

결과 및 발견

작업	지표 (높을수록 좋음)	DynaEdit vs. 기존 최고
동작 대체 (예: “run → walk”)	CLIP‑VideoScore ↑ 0.78 → 0.91	+0.13
상호작용이 있는 객체 삽입	FVD ↓ 210 → 150	-60
전역 장면 변환 (day ↔ night)	사용자 연구 선호도 ↑ 62% → 84%	+22%

시각적 품질: 편집된 비디오는 선명한 텍스처와 현실적인 움직임을 유지하며 눈에 띄는 깜박임이 없습니다.
시간적 일관성: 정렬 및 지터 모듈은 단순 확산 편집에 비해 프레임별 드리프트를 > 80 % 감소시킵니다.
일반화: DynaEdit은 작업별 미세 조정에 의존하지 않기 때문에 추가 데이터 없이도 다양한 분야(스포츠, 요리, 실내 장면)에서 작동합니다.

Practical Implications

Content creation pipelines – 비디오 편집자와 모션 디자이너는 이제 일반 텍스트를 사용해 복잡한 편집(예: “자동차를 벽에 충돌하는 자전거로 교체”)을 스크립트화할 수 있어 수동 로토스코핑이나 키프레임 애니메이션 작업을 크게 줄일 수 있습니다.
Game and AR/VR asset generation – 개발자는 짧은 게임플레이 클립을 실시간으로 생성·수정하고, 씬의 물리 법칙을 따르는 인터랙티브 소품을 삽입할 수 있어 맞춤 시뮬레이션 코드를 작성할 필요가 없습니다.
Automated video personalization – 마케팅 플랫폼은 단일 API 호출만으로 스톡 영상을 다양한 관객에 맞게 자동으로 조정할 수 있습니다(예: 인물의 제스처를 교체하거나 환경과 상호작용하는 브랜드 로고를 추가).
Rapid prototyping for research – 맞춤형 비디오 시나리오(예: “움직이는 장애물 추가”)가 필요한 연구자는 별도의 시뮬레이터를 구축하지 않고도 이를 생성할 수 있어 행동 인식과 같은 후속 작업을 위한 데이터 수집을 가속화합니다.

제한 사항 및 향후 작업

흐름 기반 확산 모델에 대한 의존성 – DynaEdit의 품질은 기본 모델이 정확한 optical flow를 예측하는 능력에 달려 있으며, 학습이 충분히 이루어지지 않은 기본 모델은 편집 충실도를 제한합니다.
짧은 클립 중심 – 현재 파이프라인은 몇 초 길이의 클립에 최적화되어 있으며, 더 긴 시퀀스로 확장하려면 추가적인 메모리 효율적인 시간 처리 방식이 필요할 수 있습니다.
물리적 현실감 제약 – 이 방법은 기본적인 움직임 일관성을 보장하지만 완전한 물리 엔진을 통합하지 않으므로, 복잡한 상호작용(예: 유체 역학) 등은 여전히 인공적으로 보일 수 있습니다.
향후 연구 방향으로 저자들은 명시적인 물리 사전지식 통합, 프레임워크를 3‑D 비디오(예: 볼류메트릭 캡처)로 확장, 비전문가가 실시간으로 프롬프트를 만들 수 있는 인터랙티브 UI 도구 탐색 등을 제시했습니다.

저자

Vladimir Kulikov
Roni Paiss
Andrey Voynov
Inbar Mosseri
Tali Dekel
Tomer Michaeli

논문 정보

arXiv ID: 2603.17989v1
분류: cs.CV
출판일: 2026년 3월 18일
PDF: PDF 다운로드

[Paper] 훈련 없이 비디오 콘텐츠, 액션 및 다이나믹을 다목적으로 편집

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] 범용 스켈레톤 이해 via Differentiable Rendering and MLLMs

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] EchoGen: 통합 레이아웃-이미지 생성 및 이해를 위한 Cycle-Consistent Learning