[Paper] RFDM: 효율적인 인과 비디오 편집을 위한 Residual Flow Diffusion Model
발행: (2026년 2월 7일 오전 01:56 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.06871v1
개요
논문 **“RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing”**은 일반 텍스트 프롬프트만으로 비디오를 편집하는 새로운 방식을 제시하며, 계산 비용을 이미지 전용 확산 모델 수준으로 유지합니다. 비디오 편집을 프레임별 인과적 프로세스로 취급함으로써, 현재 비디오‑확산 분야를 지배하는 무거운 3‑D 시공간 네트워크 없이도 가변 길이 편집을 구현합니다.
주요 기여
- 인과적 V2V 편집 파이프라인 – 이전 프레임의 예측을 조건으로 각 프레임을 편집하여 임의의 비디오 길이를 지원합니다.
- Residual Flow Diffusion Model (RFDM) – 연속 프레임 사이의 잔차 변화(“플로우”)를 예측하도록 학습하는 새로운 확산 전방 프로세스로, 전체 프레임이 아니라 시간적 중복성을 활용합니다.
- 2‑D 이미지‑투‑이미지 확산 모델의 효율적 재사용 – 기존 이미지 확산 가중치를 기반으로 아키텍처를 구축하여 대규모 3‑D 비디오 모델을 처음부터 학습할 필요를 없앱니다.
- 교육용 비디오 편집을 위한 새로운 벤치마크 – 전역/지역 스타일 전송 및 객체 제거 작업을 포함하며, 실제 편집 품질을 더 잘 반영하는 평가 지표를 제공합니다.
- 경쟁력 있는 성능 – RFDM은 최첨단 이미지 기반 편집기와 동등하거나 이를 능가하며, 훨씬 적은 연산량으로 완전한 시공간 비디오 모델에 근접합니다.
방법론
- 기본 모델 – 사전 학습된 2‑D 이미지‑투‑이미지 확산 모델(예: Stable Diffusion)로 시작합니다.
- 인과 조건화 – 프레임 t를 편집할 때, 모델은 프레임 t‑1의 디노이즈된 예측을 추가적인 조건 입력으로 받아들이며, 이를 인과적 체인으로 전환합니다.
- 잔차 흐름 확산
- 전방 과정: 원시 프레임에 가우시안 노이즈를 추가하는 대신, 저자들은 목표 편집 프레임과 이전 예측 사이의 *차이(잔차)*에 노이즈를 추가합니다.
- 역방 과정: 디노이저는 이 잔차를 복원하도록 학습되며, 복원된 잔차는 이전 프레임 예측에 다시 더해져 편집된 프레임 t를 얻습니다.
- 이는 프레임 간 변화에 학습을 집중시켜, 각 단계에서 네트워크가 모델링해야 하는 정보량을 크게 줄입니다.
- 학습 데이터 – 두 작업에 대한 실제 편집이 포함된 짝지어진 비디오 클립: (a) 전역/국부 스타일 전송, (b) 객체 제거. 모델은 “소스 비디오 + 텍스트 프롬프트 → 편집된 비디오”를 매핑하도록 학습합니다.
- 추론 – 임의 길이의 비디오와 텍스트 지시문이 주어지면, 모델은 프레임을 순차적으로 처리하면서 잔차 확산 단계를 적용하고, 언제든지 중단할 수 있어 진정한 가변 길이를 구현합니다.
Results & Findings
| Metric / Task | Image‑to‑Image Diffusion | 3‑D Spatiotemporal V2V | RFDM (Ours) |
|---|---|---|---|
| Global style transfer (FID) | 38.2 | 31.5 | 30.8 |
| Local style transfer (LPIPS) | 0.42 | 0.35 | 0.34 |
| Object removal (mAP) | 0.61 | 0.68 | 0.66 |
| Compute (GPU‑hours per hour video) | 1× | 4× | 1.1× |
- Quality: RFDM은 순수 이미지 기반 편집기보다 일관되게 성능이 우수하며, 특히 객체 제거와 같이 정밀한 시간 일관성이 요구되는 작업에서 전체 3‑D 비디오 모델과의 격차를 크게 좁힙니다.
- Efficiency: 모델이 2‑D 가중치를 재사용하고 잔차만 처리하기 때문에, 프레임당 연산량은 이미지 디퓨전 단계와 거의 동일하며 비디오 길이에 영향을 받지 않습니다.
- Scalability: 실험 결과 비디오 길이에 따라 선형적으로 확장됨을 보여줍니다—프레임 수를 두 배로 늘리면 추론 시간도 대략 두 배가 되며, 3‑D 컨볼루션에서 흔히 발생하는 숨겨진 2차 비용은 없습니다.
실용적 함의
- Developer‑friendly APIs: 기존 이미지 디퓨전 라이브러리(예: Diffusers)는 몇 줄의 코드만으로 비디오 편집을 지원하도록 확장할 수 있어, RFDM을 프로덕션 파이프라인에 통합하는 장벽을 낮춥니다.
- Real‑time or near‑real‑time editing: 인과적이고 프레임 단위인 특성 덕분에 스트리밍 비디오를 실시간으로 편집할 수 있습니다(예: 실시간 캡션 기반 시각 효과, AR 필터).
- Cost‑effective content creation: 스튜디오와 SaaS 플랫폼은 고가의 3‑D 비디오 모델이나 대규모 GPU 클러스터에 투자하지 않고도 텍스트 기반 비디오 편집 서비스를 제공할 수 있습니다.
- Fine‑grained control: 잔류 흐름에 초점을 맞춤으로써 개발자는 여러 프롬프트(예: “하늘을 석양으로 바꾸기” + “광고판 제거”)를 보다 쉽게 결합할 수 있으며, 모델이 이전 편집을 “잊어버리는” 현상이 줄어듭니다.
- Cross‑modal extensions: 백본이 2‑D 디퓨전 모델이기 때문에 이미지 디퓨전의 모든 개선(예: 더 나은 샘플러, LoRA 어댑터)이 비디오 편집에 즉시 적용됩니다.
제한 사항 및 향후 작업
- 시간적 일관성 경계 사례: 잔여 흐름(residual flow)이 대부분의 부드러운 움직임을 처리하지만, 급격한 장면 전환이나 큰 객체 이동은 여전히 깜박임 아티팩트를 발생시킬 수 있습니다.
- 프롬프트 세분성: 모델은 비디오당 하나의 전역 텍스트 프롬프트를 가정합니다; 프레임별 또는 영역별 프롬프트를 처리하려면 추가적인 조건화 메커니즘이 필요합니다.
- 학습 데이터 편향: 짝지어진 비디오 데이터셋은 스타일 전송 및 객체 제거에 초점을 맞추고 있습니다; 자세 조작, 배경 교체와 같은 보다 다양한 편집 작업으로 확장하려면 더 폭넓은 데이터가 필요할 수 있습니다.
- 향후 연구 방향은 저자들이 제안한 바와 같이 다음을 포함합니다:
- 빠른 움직임을 더욱 안정화하기 위해 광학 흐름(prior)을 통합합니다.
- 다중 프롬프트 편집을 위한 계층적 조건화를 탐구합니다.
- 메모리 효율적인 어텐션을 사용하여 잔여 확산(residual diffusion)을 더 높은 해상도와 더 긴 시퀀스로 확장합니다.
저자
- Mohammadreza Salehi
- Mehdi Noroozi
- Luca Morreale
- Ruchika Chavhan
- Malcolm Chadwick
- Alberto Gil Ramos
- Abhinav Mehrotra
논문 정보
- arXiv ID: 2602.06871v1
- 카테고리: cs.CV
- 출판일: 2026년 2월 6일
- PDF: Download PDF