[Paper] RFDM：残差流扩散模型用于高效因果视频编辑

发布: 3天前 (2026年2月7日 GMT+8 00:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06871v1

概述

论文 “RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing” 提出了一种使用纯文本提示编辑视频的新方法，同时保持计算成本与仅图像扩散模型相当。通过将视频编辑视为逐帧的因果过程，作者实现了可变长度的编辑，而无需使用当前视频扩散工作中占主导地位的沉重 3‑D 时空网络。

关键贡献

因果 V2V 编辑管线 – 在每帧上基于前一帧的预测进行编辑，实现任意视频长度。
残差流扩散模型 (RFDM) – 一种新颖的扩散前向过程，学习预测连续帧之间的残差变化（即“流”），而不是完整帧，利用时间冗余。
高效复用 2‑D 图像‑到‑图像扩散模型 – 该架构基于已有的图像扩散权重，避免了从头训练庞大的 3‑D 视频模型。
用于教学视频编辑的新基准 – 包括全局/局部风格迁移和对象移除任务，评估指标更能反映真实编辑质量。
竞争性表现 – RFDM 在性能上匹配或超越最先进的基于图像的编辑器，并在使用更少计算资源的情况下接近完整时空视频模型。

方法论

基础模型 – 从预训练的 2‑D 图像到图像扩散模型开始（例如 Stable Diffusion）。
因果条件 – 在编辑帧 t 时，模型将帧 t‑1 的去噪预测作为额外的条件输入，使过程成为因果链。
残差流扩散
- 前向过程: 作者不是向原始帧添加高斯噪声，而是向目标编辑帧与前一预测之间的差异（残差）添加噪声。
- 逆向过程: 去噪器学习重建该残差，然后将其加回前一帧的预测，以得到编辑后的帧 t。
- 这使学习聚焦于帧之间的变化，显著降低网络在每一步需要建模的信息量。
训练数据 – 配对的视频片段，带有两项任务的真实编辑结果：(a) 全局/局部风格迁移，(b) 对象移除。模型学习将源视频 + 文本提示映射为编辑后的视频。
推理 – 给定任意长度的视频和文本指令，模型对帧进行迭代，应用残差扩散步骤，并且可以在任意时刻停止——实现真正的可变长度。

结果与发现

Metric / Task	Image‑to‑Image Diffusion	3‑D Spatiotemporal V2V	RFDM (Ours)
Global style transfer (FID)	38.2	31.5	30.8
Local style transfer (LPIPS)	0.42	0.35	0.34
Object removal (mAP)	0.61	0.68	0.66
Compute (GPU‑hours per hour video)	1×	4×	1.1×

质量： RFDM 在所有任务上始终优于纯图像编辑方法，并且在需要精确时间一致性的任务（例如对象移除）上缩小了与完整 3‑D 视频模型的差距。
效率： 由于模型复用 2‑D 权重并仅处理残差，每帧的计算几乎等同于一次图像扩散步骤，且与视频长度无关。
可扩展性： 实验表明推理时间随视频时长线性增长——帧数加倍推理时间约加倍，没有 3‑D 卷积常见的隐藏二次成本。

Practical Implications

Developer‑friendly APIs: 现有的图像扩散库（例如 Diffusers）只需几行代码即可扩展以支持视频编辑，降低将 RFDM 集成到生产流水线的门槛。
Real‑time or near‑real‑time editing: 因果的、逐帧的特性使得能够对流式视频进行即时编辑（例如，基于实时字幕的视觉特效、AR 滤镜）。
Cost‑effective content creation: 工作室和 SaaS 平台可以提供基于文本的视频编辑服务，而无需投入昂贵的 3‑D 视频模型或大型 GPU 集群。
Fine‑grained control: 通过关注残差流，开发者可以更容易地组合多个提示（例如 “把天空改成日落” + “去除广告牌”），而不会导致模型“忘记”之前的编辑。
Cross‑modal extensions: 由于骨干是 2‑D 扩散模型，图像扩散的任何改进（例如，更好的采样器、LoRA 适配器）都会立即惠及视频编辑。

局限性与未来工作

时间连贯性边缘情况： 虽然残差流能够处理大多数平滑运动，但快速的场景切换或大幅度的物体位移仍可能产生闪烁伪影。
提示粒度： 模型假设每段视频只有一个全局文本提示；若要处理逐帧或特定区域的提示，则需要额外的条件机制。
训练数据偏差： 配对视频数据集侧重于风格迁移和对象移除；若要扩展到更丰富的编辑操作（例如姿态操控、背景替换），可能需要更广泛的数据。
作者提出的未来方向包括：
1. 融入光流先验以进一步稳定快速运动。
2. 探索层次化条件以实现多提示编辑。
3. 将残差扩散扩展到更高分辨率和更长序列，并采用内存高效的注意力机制。

作者

Mohammadreza Salehi
Mehdi Noroozi
Luca Morreale
Ruchika Chavhan
Malcolm Chadwick
Alberto Gil Ramos
Abhinav Mehrotra

论文信息

arXiv ID: 2602.06871v1
类别: cs.CV
出版日期: 2026年2月6日
PDF: 下载 PDF

[Paper] RFDM：残差流扩散模型用于高效因果视频编辑

概述

关键贡献

方法论

结果与发现

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

[Paper] 可靠的误标检测用于视频胶囊内镜数据

[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

【论文】PANC：先验感知 Normalized Cut 用于目标分割