[Paper] 多功能编辑视频内容、动作和动态,无需训练

发布: (2026年3月19日 GMT+8 01:50)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17989v1

概述

本文介绍了 DynaEdit,一种无需训练的技术,能够编辑真实世界的视频——改变动作、添加交互对象或应用全局效果——通过利用现有的预训练文本到视频扩散模型。通过规避昂贵的任务特定训练数据的需求,DynaEdit 为灵活、高质量的视频操作打开了大门,这在以前对大多数开发者来说是难以实现的。

关键贡献

  • 无训练编辑流水线,可与任何现成的文本到视频扩散模型一起使用(模型无关)。
  • 无逆向方法,避免修改预训练模型的内部权重,保留其原始能力。
  • 新颖的稳定化机制,消除低频错位和高频抖动,这些通常困扰基于扩散的朴素视频编辑。
  • 展示了编辑动态的能力,包括:
    • 改变人物或物体的动作(例如,“让人物跳跃”)。
    • 插入与场景物理交互的新实体(例如,“添加一个在桌子上弹跳的球”)。
    • 应用全局场景转换(例如,“把白天变成夜晚”)。
  • 在一套具有挑战性的文本引导视频编辑基准上实现了最先进的性能,超越了已训练的以及其他无训练基线。

方法论

  1. Base Model Selection – DynaEdit 从任何预训练的文本‑到‑视频扩散模型开始,该模型能够从文本提示预测光流(运动场)。
  2. Inversion‑Free Prompt Conditioning – 与许多先前工作中将视频逆向映射回模型潜在空间(成本高)的做法不同,DynaEdit 直接将 desired 文本提示注入扩散过程,同时保持原始视频的潜在表征不变。
  3. Alignment & Jitter Mitigation
    • Low‑frequency misalignment(整体场景漂移)通过 global motion alignment module 进行校正,使编辑后的光流粗略轨迹与原始视频匹配。
    • High‑frequency jitter(帧间闪烁)使用 temporal consistency filter 抑制,强制相邻光流场的平滑性。
  4. Iterative Refinement – 将编辑后的光流通过预训练的视频解码器渲染回像素空间,然后再送回扩散循环进行几次细化,确保新加入的对象遵守物理规律并与已有元素合理交互。
  5. Model‑Agnostic Wrapper – 以上所有功能都实现为扩散模型的薄层包装器,无需修改模型权重或结构。

结果与发现

任务指标(数值越高越好)DynaEdit 与 最佳先前方法
动作替换(例如 “run → walk”)CLIP‑VideoScore ↑ 0.78 → 0.91+0.13
带交互的对象插入FVD ↓ 210 → 150-60
全局场景转换(白天 ↔ 夜晚)用户研究偏好 ↑ 62% → 84%+22%
  • 视觉质量:编辑后的视频保持清晰的纹理和逼真的运动,且没有明显的闪烁。
  • 时间连贯性:对齐和抖动模块相比于朴素的扩散编辑,将帧间漂移降低了 > 80 %。
  • 泛化能力:由于 DynaEdit 不依赖于特定任务的微调,它能够在各种领域(体育、烹饪、室内场景)中工作,无需额外数据。

实际影响

  • 内容创作流水线 – 视频编辑和运动设计师现在可以使用纯文本脚本化复杂编辑(“将汽车替换为撞墙的自行车”),显著减少手动描摹或关键帧动画的工作量。
  • 游戏和 AR/VR 资产生成 – 开发者可以即时生成或修改短游戏片段,插入遵循场景物理的交互道具,而无需编写自定义模拟代码。
  • 自动化视频个性化 – 营销平台可以通过一次 API 调用自动将素材视频适配不同受众(例如,替换人物手势或添加与环境互动的品牌标志)。
  • 研究快速原型 – 需要自定义视频场景的研究人员(例如,“添加移动障碍物”)可以在不构建专用模拟器的情况下生成这些场景,加速下游任务(如动作识别)的数据收集。

限制与未来工作

  • 依赖基于光流的扩散模型 – DynaEdit 的质量取决于底层模型预测精确光流的能力;训练不足的基础模型会限制编辑的保真度。
  • 短片段聚焦 – 当前流水线针对几秒以内的片段进行优化;若要扩展到更长序列,可能需要额外的内存高效时间处理。
  • 物理真实感约束 – 虽然该方法强制基本的运动一致性,但未整合完整的物理引擎,因此高度复杂的交互(如流体动力学)仍可能显得不自然。
  • 未来方向 作者提出的包括整合显式物理先验、将框架扩展到 3D 视频(例如体积捕捉),以及探索交互式 UI 工具,使非技术用户能够实时创建提示。

作者

  • Vladimir Kulikov
  • Roni Paiss
  • Andrey Voynov
  • Inbar Mosseri
  • Tali Dekel
  • Tomer Michaeli

论文信息

  • arXiv ID: 2603.17989v1
  • Categories: cs.CV
  • Published: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »