[Paper] Kiwi-Edit：多功能视频编辑：通过指令和参考引导

发布: 1天前 (2026年3月3日 GMT+8 02:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02175v1

Overview

本文介绍了 Kiwi-Edit，一个新框架，使开发者能够通过结合自然语言指令和视觉参考线索（例如图像或短片）来编辑视频。通过生成大规模合成数据集（RefVIE）和统一的模型架构，作者实现了比以往仅指令方法更精确、更可控的视频编辑。

数据生成
- 从公开可用的视频编辑数据集（例如 VGG‑Sound、DAVIS）开始。
- 对于每个源‑目标视频对，通过使用编辑指令提示扩散图像模型（Stable Diffusion）合成参考骨架。
- 结果是一个四元组：(源视频，文本指令，参考图像，编辑后视频)。
- 自动质量检查（CLIP 相似度、运动一致性）过滤掉低保真样本，生成 RefVIE 语料库。
模型架构（Kiwi‑Edit）
- 主干网络：视频 Transformer 编码器将源帧处理为时空 token。
- 指令编码器：冻结的语言模型（例如 T5）生成可学习的查询嵌入，以关注视频 token。
- 参考编码器：CNN‑ViT 混合模型提取参考图像的潜在视觉特征；这些特征作为额外的键/值注入交叉注意力层。
- 解码器：条件扩散模型预测编辑后的视频帧，受指令查询和参考特征共同引导。
训练课程
- 阶段 1 – 仅指令：在没有参考条件的 RefVIE 上训练，以学习基本编辑语义。
- 阶段 2 – 参考感知：使用完整四元组进行微调，逐步增加参考损失的权重（生成帧与参考之间基于 CLIP 的相似度）。
- 阶段 3 – 多模态精炼：联合优化感知视频质量（VMAF）和时间一致性（基于光流的损失）。

Metric (higher is better)	Instruction‑Only Baseline	Kiwi‑Edit (full)
CLIP‑Text↔Video similarity	0.62	0.78
CLIP‑Image↔Video similarity (reference fidelity)	0.48	0.71
FVD (lower is better)	210	112
Human preference (pairwise)	32 %	68 %

消融实验表明：(1) 参考编码器对图像相似度贡献最大；(2) 逐步课程学习在 FVD 上比端到端训练提升约 10 %。

内容创作流水线：视频编辑者现在可以通过文字指定要更改的内容（例如，“把天空调成日落橙色”），并通过参考图像指定呈现方式，从而大幅减少手动关键帧的工作。
AR/VR 快速原型：开发者可以通过更换参考素材即时生成场景变体，适用于游戏关卡设计或虚拟制作。
自动化后期制作：品牌只需提供风格参考，即可确保跨活动的视觉一致性；Kiwi‑Edit 将相应地调整原始素材。
开源生态系统：随着代码、数据集和预训练权重的发布，团队可以在特定领域的素材（例如医学影像视频）上微调模型，而无需收集大量配对数据。

参考质量依赖：模型假设参考图像能够准确捕捉期望的视觉属性；模糊或低分辨率的参考会降低性能。
计算成本：在全分辨率视频（1080p）上训练扩散解码器仍然占用大量内存；推理目前在单个 A100 上约为 2 fps。
编辑范围受限：虽然在颜色、纹理和对象插入方面有效，但系统在大尺度几何变换（例如改变摄像机视角）上表现不足。
未来方向：作者提出的包括：
1. 融合 3‑D 参考线索（深度图、点云）以实现空间感知的编辑。
2. 探索轻量级 Transformer 变体以实现实时部署。
3. 将管线扩展到多模态参考（音频 + 视觉）。