[Paper] EasyV2V:高质量基于指令的视频编辑框架
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16920v1
概览
论文 EasyV2V 提出了一种出乎意料地简洁却强大的 基于指令的视频编辑 框架。通过巧妙地复用已有的图像编辑专家、利用预训练的文本到视频模型,并引入统一的基于掩码的控制方案,作者实现了高质量、时间上连贯的编辑效果,且在性能上超越了学术基线和商业工具。
关键贡献
- 以数据为中心的配方:从图像编辑专家、单帧监督以及共享仿射运动的伪对构建多样化的视频编辑对;挖掘密集标注的片段以丰富训练数据。
- 轻量级模型设计:表明预训练的文本到视频扩散模型已经具备编辑知识;通过一个小型 LoRA(低秩适配)层和简单的序列拼接进行条件微调。
- 统一的时空控制:引入单一掩码机制,可处理空间掩码、时间掩码以及可选的参考图像,实现灵活的输入模式(例如,视频 + 文本,视频 + 掩码 + 文本,视频 + 掩码 + 参考 + 文本)。
- 过渡监督:训练模型理解 编辑应如何 随时间展开,提升帧间的平滑性和一致性。
- 领先的性能:在标准基准上超越同期研究和领先的商业视频编辑服务,同时保持计算效率。
方法论
-
数据生成
- 专家组合:结合现成的图像编辑器(例如 Stable Diffusion Instruct‑Pix2Pix)和快速逆向模型,合成前后图像对。
- 提升到视频:对单帧应用相同编辑,并使用共享仿射运动在整段视频中传播,生成伪视频对,省去昂贵的人工标注。
- 密集字幕挖掘:爬取已有丰富文本描述的视频数据集,将其转化为自然的指令‑视频对。
- 过渡监督:添加逐渐从源到目标变化的中间帧,教会网络编辑的时间动态。
-
模型架构
- 基于预训练的文本到视频扩散模型(例如 Stable Diffusion Video)。
- 添加 LoRA 模块(几千个可训练参数)以适配编辑任务。
- 通过 拼接 源视频帧、可选掩码、参考图像和指令文本到单一序列 token 流中,对扩散过程进行条件化。
-
控制机制
- 一个 单一二进制掩码 指示哪些像素(以及可选的时间步)需要被修改。
- 当提供参考图像时,掩码还指引 参考内容 应该注入的位置。
-
训练
- 使用构建好的视频对和过渡帧。
- 在适度预算下优化 LoRA 参数(≈ 1‑2 GPU 天,单个 A100)。
Results & Findings
| 指标(在标准视频编辑基准上) | EasyV2V | 先前SOTA | 商业工具 |
|---|---|---|---|
| CLIP‑Score(语义保真度) | 0.84 | 0.78 | 0.71 |
| FVD(时间一致性) | 210 | 340 | 420 |
| 用户偏好(成对比较) | 71 % | 29 % | — |
- 更高的语义对齐度:编辑后的视频比基线更贴合文本指令。
- 更好的时间平滑性:更低的 FVD 表明闪烁伪影更少,运动更连贯。
- 人工研究:超过 70 % 的参与者更倾向于 EasyV2V 的输出,而非竞争方法。
定性示例(例如“将白天的街道转换为夜晚,同时保持行驶的车辆”)展示了清晰的对象变化、一致的光照切换以及平滑的过渡。
实际意义
- 内容创作流水线:视频编辑者现在可以使用自然语言和可选的遮罩脚本化编辑,大幅减少手动关键帧的工作量。
- AR/VR 快速原型:开发者能够在不重新渲染整个资产的情况下,实时生成变体场景(例如“添加雪”)。
- 在线学习与营销:只需几行指令,即可实现视频个性化(品牌颜色、产品叠加),实现自动化。
- 低计算资源占用:由于仅微调 LoRA 层,企业可以在无需大型 GPU 集群的情况下,将模型适配到特定领域词汇(如医学影像)。
局限性与未来工作
- Scope of edits:该框架在全局风格或对象级别的更改上表现出色,但在高度细致的几何修改(例如精确的面部重演)方面仍有困难。
- Mask granularity:虽然单一掩码适用于多数情况,但复杂的多对象编辑可能需要层级掩码,而这目前尚未得到支持。
- Dataset bias:训练数据来源于现有的图像编辑模型,可能会继承它们的偏差和失效模式。
- Future directions:作者建议将其扩展到支持 3‑D 感知的视频编辑,整合深度线索以更好地处理遮挡,并探索面向终端用户的交互式掩码细化工具。
作者
- Jinjie Mai
- Chaoyang Wang
- Guocheng Gordon Qian
- Willi Menapace
- Sergey Tulyakov
- Bernard Ghanem
- Peter Wonka
- Ashkan Mirzaei
论文信息
- arXiv ID: 2512.16920v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025年12月18日
- PDF: 下载 PDF