[Paper] RFDM:残差流扩散模型用于高效因果视频编辑

发布: (2026年2月7日 GMT+8 00:56)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06871v1

概述

论文 “RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing” 提出了一种使用纯文本提示编辑视频的新方法,同时保持计算成本与仅图像扩散模型相当。通过将视频编辑视为逐帧的因果过程,作者实现了可变长度的编辑,而无需使用当前视频扩散工作中占主导地位的沉重 3‑D 时空网络。

关键贡献

  • 因果 V2V 编辑管线 – 在每帧上基于前一帧的预测进行编辑,实现任意视频长度。
  • 残差流扩散模型 (RFDM) – 一种新颖的扩散前向过程,学习预测连续帧之间的残差变化(即“流”),而不是完整帧,利用时间冗余。
  • 高效复用 2‑D 图像‑到‑图像扩散模型 – 该架构基于已有的图像扩散权重,避免了从头训练庞大的 3‑D 视频模型。
  • 用于教学视频编辑的新基准 – 包括全局/局部风格迁移和对象移除任务,评估指标更能反映真实编辑质量。
  • 竞争性表现 – RFDM 在性能上匹配或超越最先进的基于图像的编辑器,并在使用更少计算资源的情况下接近完整时空视频模型。

方法论

  1. 基础模型 – 从预训练的 2‑D 图像到图像扩散模型开始(例如 Stable Diffusion)。
  2. 因果条件 – 在编辑帧 t 时,模型将帧 t‑1 的去噪预测作为额外的条件输入,使过程成为因果链。
  3. 残差流扩散
    • 前向过程: 作者不是向原始帧添加高斯噪声,而是向目标编辑帧与前一预测之间的 差异(残差)添加噪声。
    • 逆向过程: 去噪器学习重建该残差,然后将其加回前一帧的预测,以得到编辑后的帧 t
    • 这使学习聚焦于帧之间的 变化,显著降低网络在每一步需要建模的信息量。
  4. 训练数据 – 配对的视频片段,带有两项任务的真实编辑结果:(a) 全局/局部风格迁移,(b) 对象移除。模型学习将源视频 + 文本提示映射为编辑后的视频。
  5. 推理 – 给定任意长度的视频和文本指令,模型对帧进行迭代,应用残差扩散步骤,并且可以在任意时刻停止——实现真正的可变长度。

结果与发现

Metric / TaskImage‑to‑Image Diffusion3‑D Spatiotemporal V2VRFDM (Ours)
Global style transfer (FID)38.231.530.8
Local style transfer (LPIPS)0.420.350.34
Object removal (mAP)0.610.680.66
Compute (GPU‑hours per hour video)1.1×
  • 质量: RFDM 在所有任务上始终优于纯图像编辑方法,并且在需要精确时间一致性的任务(例如对象移除)上缩小了与完整 3‑D 视频模型的差距。
  • 效率: 由于模型复用 2‑D 权重并仅处理残差,每帧的计算几乎等同于一次图像扩散步骤,且与视频长度无关。
  • 可扩展性: 实验表明推理时间随视频时长线性增长——帧数加倍推理时间约加倍,没有 3‑D 卷积常见的隐藏二次成本。

Practical Implications

  • Developer‑friendly APIs: 现有的图像扩散库(例如 Diffusers)只需几行代码即可扩展以支持视频编辑,降低将 RFDM 集成到生产流水线的门槛。
  • Real‑time or near‑real‑time editing: 因果的、逐帧的特性使得能够对流式视频进行即时编辑(例如,基于实时字幕的视觉特效、AR 滤镜)。
  • Cost‑effective content creation: 工作室和 SaaS 平台可以提供基于文本的视频编辑服务,而无需投入昂贵的 3‑D 视频模型或大型 GPU 集群。
  • Fine‑grained control: 通过关注残差流,开发者可以更容易地组合多个提示(例如 “把天空改成日落” + “去除广告牌”),而不会导致模型“忘记”之前的编辑。
  • Cross‑modal extensions: 由于骨干是 2‑D 扩散模型,图像扩散的任何改进(例如,更好的采样器、LoRA 适配器)都会立即惠及视频编辑。

局限性与未来工作

  • 时间连贯性边缘情况: 虽然残差流能够处理大多数平滑运动,但快速的场景切换或大幅度的物体位移仍可能产生闪烁伪影。
  • 提示粒度: 模型假设每段视频只有一个全局文本提示;若要处理逐帧或特定区域的提示,则需要额外的条件机制。
  • 训练数据偏差: 配对视频数据集侧重于风格迁移和对象移除;若要扩展到更丰富的编辑操作(例如姿态操控、背景替换),可能需要更广泛的数据。
  • 作者提出的未来方向包括:
    1. 融入光流先验以进一步稳定快速运动。
    2. 探索层次化条件以实现多提示编辑。
    3. 将残差扩散扩展到更高分辨率和更长序列,并采用内存高效的注意力机制。

作者

  • Mohammadreza Salehi
  • Mehdi Noroozi
  • Luca Morreale
  • Ruchika Chavhan
  • Malcolm Chadwick
  • Alberto Gil Ramos
  • Abhinav Mehrotra

论文信息

  • arXiv ID: 2602.06871v1
  • 类别: cs.CV
  • 出版日期: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »