[Paper] 多功能编辑视频内容、动作和动态,无需训练
发布: (2026年3月19日 GMT+8 01:50)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.17989v1
概述
本文介绍了 DynaEdit,一种无需训练的技术,能够编辑真实世界的视频——改变动作、添加交互对象或应用全局效果——通过利用现有的预训练文本到视频扩散模型。通过规避昂贵的任务特定训练数据的需求,DynaEdit 为灵活、高质量的视频操作打开了大门,这在以前对大多数开发者来说是难以实现的。
关键贡献
- 无训练编辑流水线,可与任何现成的文本到视频扩散模型一起使用(模型无关)。
- 无逆向方法,避免修改预训练模型的内部权重,保留其原始能力。
- 新颖的稳定化机制,消除低频错位和高频抖动,这些通常困扰基于扩散的朴素视频编辑。
- 展示了编辑动态的能力,包括:
- 改变人物或物体的动作(例如,“让人物跳跃”)。
- 插入与场景物理交互的新实体(例如,“添加一个在桌子上弹跳的球”)。
- 应用全局场景转换(例如,“把白天变成夜晚”)。
- 在一套具有挑战性的文本引导视频编辑基准上实现了最先进的性能,超越了已训练的以及其他无训练基线。
方法论
- Base Model Selection – DynaEdit 从任何预训练的文本‑到‑视频扩散模型开始,该模型能够从文本提示预测光流(运动场)。
- Inversion‑Free Prompt Conditioning – 与许多先前工作中将视频逆向映射回模型潜在空间(成本高)的做法不同,DynaEdit 直接将 desired 文本提示注入扩散过程,同时保持原始视频的潜在表征不变。
- Alignment & Jitter Mitigation
- Low‑frequency misalignment(整体场景漂移)通过 global motion alignment module 进行校正,使编辑后的光流粗略轨迹与原始视频匹配。
- High‑frequency jitter(帧间闪烁)使用 temporal consistency filter 抑制,强制相邻光流场的平滑性。
- Iterative Refinement – 将编辑后的光流通过预训练的视频解码器渲染回像素空间,然后再送回扩散循环进行几次细化,确保新加入的对象遵守物理规律并与已有元素合理交互。
- Model‑Agnostic Wrapper – 以上所有功能都实现为扩散模型的薄层包装器,无需修改模型权重或结构。
结果与发现
| 任务 | 指标(数值越高越好) | DynaEdit 与 最佳先前方法 |
|---|---|---|
| 动作替换(例如 “run → walk”) | CLIP‑VideoScore ↑ 0.78 → 0.91 | +0.13 |
| 带交互的对象插入 | FVD ↓ 210 → 150 | -60 |
| 全局场景转换(白天 ↔ 夜晚) | 用户研究偏好 ↑ 62% → 84% | +22% |
- 视觉质量:编辑后的视频保持清晰的纹理和逼真的运动,且没有明显的闪烁。
- 时间连贯性:对齐和抖动模块相比于朴素的扩散编辑,将帧间漂移降低了 > 80 %。
- 泛化能力:由于 DynaEdit 不依赖于特定任务的微调,它能够在各种领域(体育、烹饪、室内场景)中工作,无需额外数据。
实际影响
- 内容创作流水线 – 视频编辑和运动设计师现在可以使用纯文本脚本化复杂编辑(“将汽车替换为撞墙的自行车”),显著减少手动描摹或关键帧动画的工作量。
- 游戏和 AR/VR 资产生成 – 开发者可以即时生成或修改短游戏片段,插入遵循场景物理的交互道具,而无需编写自定义模拟代码。
- 自动化视频个性化 – 营销平台可以通过一次 API 调用自动将素材视频适配不同受众(例如,替换人物手势或添加与环境互动的品牌标志)。
- 研究快速原型 – 需要自定义视频场景的研究人员(例如,“添加移动障碍物”)可以在不构建专用模拟器的情况下生成这些场景,加速下游任务(如动作识别)的数据收集。
限制与未来工作
- 依赖基于光流的扩散模型 – DynaEdit 的质量取决于底层模型预测精确光流的能力;训练不足的基础模型会限制编辑的保真度。
- 短片段聚焦 – 当前流水线针对几秒以内的片段进行优化;若要扩展到更长序列,可能需要额外的内存高效时间处理。
- 物理真实感约束 – 虽然该方法强制基本的运动一致性,但未整合完整的物理引擎,因此高度复杂的交互(如流体动力学)仍可能显得不自然。
- 未来方向 作者提出的包括整合显式物理先验、将框架扩展到 3D 视频(例如体积捕捉),以及探索交互式 UI 工具,使非技术用户能够实时创建提示。
作者
- Vladimir Kulikov
- Roni Paiss
- Andrey Voynov
- Inbar Mosseri
- Tali Dekel
- Tomer Michaeli
论文信息
- arXiv ID: 2603.17989v1
- Categories: cs.CV
- Published: 2026年3月18日
- PDF: 下载 PDF