[论文] OpenVE-3M:大规模高质量的指令引导视频编辑数据集
发布: (2025年12月9日 GMT+8 02:55)
7 min read
原文: arXiv
Source: arXiv - 2512.07826v1
概览
本文首次推出 OpenVE-3M,这是一个面向 指令引导视频编辑 的开源、大规模、高质量数据集。数据集涵盖从全局风格更改到精确对象插入的多种编辑类型,填补了长期限制视频编辑 AI 模型进展的关键空白。作者同时发布了基准测试套件(OpenVE‑Bench)和一个 50 亿参数的模型(OpenVE‑Edit),在该基准上创下了新的性能纪录。
主要贡献
- OpenVE‑3M 数据集:300 万对视频‑编辑样本,配有人类可读的编辑指令,覆盖 8 种不同的编辑类别(包括空间对齐和非对齐编辑)。
- 严格的数据流水线:自动生成、多阶段质量过滤以及人工验证,确保高视觉保真度和指令相关性。
- OpenVE‑Bench:精心挑选的 431 对视频‑编辑样本,提供三个评估指标(时序一致性、编辑准确性和感知质量),这些指标与人工评价高度相关。
- OpenVE‑Edit 模型:在 OpenVE‑3M 上训练的 50 亿参数指令引导视频编辑模型,达到业界领先水平,且性能超越了先前开源工作中的 140 亿基线模型。
- 开源发布:所有数据、代码和模型权重均公开,可促进可复现性和社区驱动的扩展。
方法论
-
数据生成
- 从免版税的高分辨率视频片段库中抽取素材。
- 应用一套确定性的视频操作算子(如颜色分级、背景替换、对象插入/删除、字幕编辑)。
- 对每一次操作,自动合成一条自然语言指令,描述期望的编辑内容。
-
质量过滤
- 自动检查:使用预训练感知模型检测视觉伪影、时序抖动以及音视频不同步等问题。
- 人工审查:小组随机抽样验证指令与编辑的一致性,剔除异常样本。
-
基准构建(OpenVE‑Bench)
- 采样一个覆盖所有编辑类别的平衡子集。
- 为每段视频获取三项人工评分:时序一致性、编辑准确性 与 感知质量。
- 推导出与这些评分对齐的复合指标,用于自动评估。
-
模型训练(OpenVE‑Edit)
- 架构:基于扩散的 视频生成器,条件为源视频和文本指令。
- 训练方案:50 亿参数,使用 64 块 A100 GPU,混合精度训练约 2 周。
- 课程学习:先从简单的全局编辑开始,逐步引入更复杂的局部和非对齐编辑。
结果与发现
| 指标(数值越高越好) | OpenVE‑Edit (5 B) | 先前开源 14 B 基线 | 人类上限 |
|---|---|---|---|
| 时序一致性 (TC) | 0.84 | 0.78 | 0.92 |
| 编辑准确性 (EA) | 0.81 | 0.73 | 0.89 |
| 感知质量 (PQ) | 0.86 | 0.80 | 0.94 |
- OpenVE‑Edit 在所有三项指标上均超越 更大的 14 B 基线,证明数据质量与多样性可以抵消单纯的模型规模。
- 人工评估显示,该模型的输出距离人类上限仅约 10 %,对一个 5 B 模型而言是显著的成就。
- 消融实验表明,每一种编辑类别都有独特贡献;去除非空间对齐编辑会导致整体性能下降约 6 %。
实际意义
- 快速原型化视频特效:开发者可将 OpenVE‑Edit 集成到内容创作流水线中,仅凭文本指令即可实现风格迁移、背景替换或字幕更新等操作。
- 可扩展的视频个性化:营销平台能够在无需人工编辑的情况下,批量生成数千条定制化视频广告(如品牌专属配色)。
- 增强视频编辑工具:现有桌面或云端编辑器可提供“自然语言编辑”按钮,降低非技术创作者的使用门槛。
- 加速科研:OpenVE‑Bench 提供统一的评测基准,便于后续指令引导视频模型的公平比较。
- 成本效益部署:由于最先进的性能已在 5 B 模型上实现,推理可在单块高端 GPU,甚至专用推理硬件上运行,降低 SaaS 服务的成本。
局限性与未来工作
- 领域偏差:源视频主要来自免版税素材库,对高度电影化或用户生成内容(如抖动的手机拍摄)可能表现不佳。
- 指令长度:虽然数据集中包含较长的提示,但极其复杂的多步骤指令仍然不足。
- 音频处理:当前流水线侧重视觉编辑,未覆盖同步音频的变换(如配音替换)。
- 实时编辑:推理时延仍在每段短视频数秒级,真正的实时编辑仍是未解难题。
未来工作可以扩展数据集以覆盖更丰富的拍摄条件,加入多模态(音视频)编辑指令,并探索模型蒸馏技术,以在不牺牲质量的前提下降低延迟。
作者
- 何浩阳
- 王杰
- 张江宁
- 薛竹存
- 卜星远
- 杨强鹏
- 文世磊
- 谢磊
论文信息
- arXiv ID: 2512.07826v1
- 分类: cs.CV
- 发表时间: 2025 年 12 月 8 日
- PDF: Download PDF