[Paper] RFDM:残差流扩散模型用于高效因果视频编辑
发布: (2026年2月7日 GMT+8 00:56)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06871v1
概述
论文 “RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing” 提出了一种使用纯文本提示编辑视频的新方法,同时保持计算成本与仅图像扩散模型相当。通过将视频编辑视为逐帧的因果过程,作者实现了可变长度的编辑,而无需使用当前视频扩散工作中占主导地位的沉重 3‑D 时空网络。
关键贡献
- 因果 V2V 编辑管线 – 在每帧上基于前一帧的预测进行编辑,实现任意视频长度。
- 残差流扩散模型 (RFDM) – 一种新颖的扩散前向过程,学习预测连续帧之间的残差变化(即“流”),而不是完整帧,利用时间冗余。
- 高效复用 2‑D 图像‑到‑图像扩散模型 – 该架构基于已有的图像扩散权重,避免了从头训练庞大的 3‑D 视频模型。
- 用于教学视频编辑的新基准 – 包括全局/局部风格迁移和对象移除任务,评估指标更能反映真实编辑质量。
- 竞争性表现 – RFDM 在性能上匹配或超越最先进的基于图像的编辑器,并在使用更少计算资源的情况下接近完整时空视频模型。
方法论
- 基础模型 – 从预训练的 2‑D 图像到图像扩散模型开始(例如 Stable Diffusion)。
- 因果条件 – 在编辑帧 t 时,模型将帧 t‑1 的去噪预测作为额外的条件输入,使过程成为因果链。
- 残差流扩散
- 前向过程: 作者不是向原始帧添加高斯噪声,而是向目标编辑帧与前一预测之间的 差异(残差)添加噪声。
- 逆向过程: 去噪器学习重建该残差,然后将其加回前一帧的预测,以得到编辑后的帧 t。
- 这使学习聚焦于帧之间的 变化,显著降低网络在每一步需要建模的信息量。
- 训练数据 – 配对的视频片段,带有两项任务的真实编辑结果:(a) 全局/局部风格迁移,(b) 对象移除。模型学习将源视频 + 文本提示映射为编辑后的视频。
- 推理 – 给定任意长度的视频和文本指令,模型对帧进行迭代,应用残差扩散步骤,并且可以在任意时刻停止——实现真正的可变长度。
结果与发现
| Metric / Task | Image‑to‑Image Diffusion | 3‑D Spatiotemporal V2V | RFDM (Ours) |
|---|---|---|---|
| Global style transfer (FID) | 38.2 | 31.5 | 30.8 |
| Local style transfer (LPIPS) | 0.42 | 0.35 | 0.34 |
| Object removal (mAP) | 0.61 | 0.68 | 0.66 |
| Compute (GPU‑hours per hour video) | 1× | 4× | 1.1× |
- 质量: RFDM 在所有任务上始终优于纯图像编辑方法,并且在需要精确时间一致性的任务(例如对象移除)上缩小了与完整 3‑D 视频模型的差距。
- 效率: 由于模型复用 2‑D 权重并仅处理残差,每帧的计算几乎等同于一次图像扩散步骤,且与视频长度无关。
- 可扩展性: 实验表明推理时间随视频时长线性增长——帧数加倍推理时间约加倍,没有 3‑D 卷积常见的隐藏二次成本。
Practical Implications
- Developer‑friendly APIs: 现有的图像扩散库(例如 Diffusers)只需几行代码即可扩展以支持视频编辑,降低将 RFDM 集成到生产流水线的门槛。
- Real‑time or near‑real‑time editing: 因果的、逐帧的特性使得能够对流式视频进行即时编辑(例如,基于实时字幕的视觉特效、AR 滤镜)。
- Cost‑effective content creation: 工作室和 SaaS 平台可以提供基于文本的视频编辑服务,而无需投入昂贵的 3‑D 视频模型或大型 GPU 集群。
- Fine‑grained control: 通过关注残差流,开发者可以更容易地组合多个提示(例如 “把天空改成日落” + “去除广告牌”),而不会导致模型“忘记”之前的编辑。
- Cross‑modal extensions: 由于骨干是 2‑D 扩散模型,图像扩散的任何改进(例如,更好的采样器、LoRA 适配器)都会立即惠及视频编辑。
局限性与未来工作
- 时间连贯性边缘情况: 虽然残差流能够处理大多数平滑运动,但快速的场景切换或大幅度的物体位移仍可能产生闪烁伪影。
- 提示粒度: 模型假设每段视频只有一个全局文本提示;若要处理逐帧或特定区域的提示,则需要额外的条件机制。
- 训练数据偏差: 配对视频数据集侧重于风格迁移和对象移除;若要扩展到更丰富的编辑操作(例如姿态操控、背景替换),可能需要更广泛的数据。
- 作者提出的未来方向包括:
- 融入光流先验以进一步稳定快速运动。
- 探索层次化条件以实现多提示编辑。
- 将残差扩散扩展到更高分辨率和更长序列,并采用内存高效的注意力机制。
作者
- Mohammadreza Salehi
- Mehdi Noroozi
- Luca Morreale
- Ruchika Chavhan
- Malcolm Chadwick
- Alberto Gil Ramos
- Abhinav Mehrotra
论文信息
- arXiv ID: 2602.06871v1
- 类别: cs.CV
- 出版日期: 2026年2月6日
- PDF: 下载 PDF