[Paper] 多功能编辑视频内容、动作和动态，无需训练

发布: 1天前 (2026年3月19日 GMT+8 01:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17989v1

概述

本文介绍了 DynaEdit，一种无需训练的技术，能够编辑真实世界的视频——改变动作、添加交互对象或应用全局效果——通过利用现有的预训练文本到视频扩散模型。通过规避昂贵的任务特定训练数据的需求，DynaEdit 为灵活、高质量的视频操作打开了大门，这在以前对大多数开发者来说是难以实现的。

无训练编辑流水线，可与任何现成的文本到视频扩散模型一起使用（模型无关）。
无逆向方法，避免修改预训练模型的内部权重，保留其原始能力。
新颖的稳定化机制，消除低频错位和高频抖动，这些通常困扰基于扩散的朴素视频编辑。
展示了编辑动态的能力，包括：
- 改变人物或物体的动作（例如，“让人物跳跃”）。
- 插入与场景物理交互的新实体（例如，“添加一个在桌子上弹跳的球”）。
- 应用全局场景转换（例如，“把白天变成夜晚”）。
在一套具有挑战性的文本引导视频编辑基准上实现了最先进的性能，超越了已训练的以及其他无训练基线。

Base Model Selection – DynaEdit 从任何预训练的文本‑到‑视频扩散模型开始，该模型能够从文本提示预测光流（运动场）。
Inversion‑Free Prompt Conditioning – 与许多先前工作中将视频逆向映射回模型潜在空间（成本高）的做法不同，DynaEdit 直接将 desired 文本提示注入扩散过程，同时保持原始视频的潜在表征不变。
Alignment & Jitter Mitigation
- Low‑frequency misalignment（整体场景漂移）通过 global motion alignment module 进行校正，使编辑后的光流粗略轨迹与原始视频匹配。
- High‑frequency jitter（帧间闪烁）使用 temporal consistency filter 抑制，强制相邻光流场的平滑性。
Iterative Refinement – 将编辑后的光流通过预训练的视频解码器渲染回像素空间，然后再送回扩散循环进行几次细化，确保新加入的对象遵守物理规律并与已有元素合理交互。
Model‑Agnostic Wrapper – 以上所有功能都实现为扩散模型的薄层包装器，无需修改模型权重或结构。

内容创作流水线 – 视频编辑和运动设计师现在可以使用纯文本脚本化复杂编辑（“将汽车替换为撞墙的自行车”），显著减少手动描摹或关键帧动画的工作量。
游戏和 AR/VR 资产生成 – 开发者可以即时生成或修改短游戏片段，插入遵循场景物理的交互道具，而无需编写自定义模拟代码。
自动化视频个性化 – 营销平台可以通过一次 API 调用自动将素材视频适配不同受众（例如，替换人物手势或添加与环境互动的品牌标志）。
研究快速原型 – 需要自定义视频场景的研究人员（例如，“添加移动障碍物”）可以在不构建专用模拟器的情况下生成这些场景，加速下游任务（如动作识别）的数据收集。