[Paper] Kiwi-Edit:多功能视频编辑:通过指令和参考引导
发布: (2026年3月3日 GMT+8 02:46)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.02175v1
Overview
本文介绍了 Kiwi-Edit,一个新框架,使开发者能够通过结合自然语言指令和视觉参考线索(例如图像或短片)来编辑视频。通过生成大规模合成数据集(RefVIE)和统一的模型架构,作者实现了比以往仅指令方法更精确、更可控的视频编辑。
关键贡献
- 可扩展的数据管道,使用最先进的图像生成器将现有的视频编辑对转换为高质量的四元组(源视频、指令、参考图像、编辑后视频)。
- RefVIE 数据集:200K 训练四元组,覆盖多样的编辑场景,已公开发布。
- RefVIE‑Bench:一个全面的基准套件(自动指标 + 人工评估),用于指令与参考视频编辑。
- Kiwi‑Edit 架构:将可学习的查询令牌(用于文本指令)与从参考图像提取的潜在视觉特征相融合,实现细粒度的语义引导。
- 渐进式多阶段训练,首先学习指令遵循,然后细化参考保真度,带来显著的性能提升。
方法论
-
数据生成
- 从公开可用的视频编辑数据集(例如 VGG‑Sound、DAVIS)开始。
- 对于每个源‑目标视频对,通过使用编辑指令提示扩散图像模型(Stable Diffusion)合成参考骨架。
- 结果是一个四元组:(源视频,文本指令,参考图像,编辑后视频)。
- 自动质量检查(CLIP 相似度、运动一致性)过滤掉低保真样本,生成 RefVIE 语料库。
-
模型架构(Kiwi‑Edit)
- 主干网络:视频 Transformer 编码器将源帧处理为时空 token。
- 指令编码器:冻结的语言模型(例如 T5)生成可学习的查询嵌入,以关注视频 token。
- 参考编码器:CNN‑ViT 混合模型提取参考图像的潜在视觉特征;这些特征作为额外的键/值注入交叉注意力层。
- 解码器:条件扩散模型预测编辑后的视频帧,受指令查询和参考特征共同引导。
-
训练课程
- 阶段 1 – 仅指令:在没有参考条件的 RefVIE 上训练,以学习基本编辑语义。
- 阶段 2 – 参考感知:使用完整四元组进行微调,逐步增加参考损失的权重(生成帧与参考之间基于 CLIP 的相似度)。
- 阶段 3 – 多模态精炼:联合优化感知视频质量(VMAF)和时间一致性(基于光流的损失)。
结果与发现
| Metric (higher is better) | Instruction‑Only Baseline | Kiwi‑Edit (full) |
|---|---|---|
| CLIP‑Text↔Video similarity | 0.62 | 0.78 |
| CLIP‑Image↔Video similarity (reference fidelity) | 0.48 | 0.71 |
| FVD (lower is better) | 210 | 112 |
| Human preference (pairwise) | 32 % | 68 % |
- 指令遵循 提高约 25 %(CLIP‑Text 分数)。
- 参考保真度 提升约 45 %(CLIP‑Image 分数),这意味着编辑后的视频在视觉上与提供的参考更为匹配,优于之前的方法。
- 时间连贯性 由于流感知损失保持良好,没有出现明显的闪烁。
消融实验表明:(1) 参考编码器对图像相似度贡献最大;(2) 逐步课程学习在 FVD 上比端到端训练提升约 10 %。
实际意义
- 内容创作流水线:视频编辑者现在可以通过文字指定要更改的内容(例如,“把天空调成日落橙色”),并通过参考图像指定呈现方式,从而大幅减少手动关键帧的工作。
- AR/VR 快速原型:开发者可以通过更换参考素材即时生成场景变体,适用于游戏关卡设计或虚拟制作。
- 自动化后期制作:品牌只需提供风格参考,即可确保跨活动的视觉一致性;Kiwi‑Edit 将相应地调整原始素材。
- 开源生态系统:随着代码、数据集和预训练权重的发布,团队可以在特定领域的素材(例如医学影像视频)上微调模型,而无需收集大量配对数据。
局限性与未来工作
- 参考质量依赖:模型假设参考图像能够准确捕捉期望的视觉属性;模糊或低分辨率的参考会降低性能。
- 计算成本:在全分辨率视频(1080p)上训练扩散解码器仍然占用大量内存;推理目前在单个 A100 上约为 2 fps。
- 编辑范围受限:虽然在颜色、纹理和对象插入方面有效,但系统在大尺度几何变换(例如改变摄像机视角)上表现不足。
- 未来方向:作者提出的包括:
- 融合 3‑D 参考线索(深度图、点云)以实现空间感知的编辑。
- 探索轻量级 Transformer 变体以实现实时部署。
- 将管线扩展到多模态参考(音频 + 视觉)。
作者
- Yiqi Lin
- Guoqiang Liang
- Ziyun Zeng
- Zechen Bai
- Yanzhe Chen
- Mike Zheng Shou
论文信息
- arXiv ID: 2603.02175v1
- 分类: cs.CV, cs.AI
- 出版日期: 2026年3月2日
- PDF: 下载 PDF