[论文] OpenVE-3M：大规模高质量的指令引导视频编辑数据集

发布: 1周前 (2025年12月9日 GMT+8 02:55)

7 min read

原文: arXiv

Source: arXiv - 2512.07826v1

概览

本文首次推出 OpenVE-3M，这是一个面向 指令引导视频编辑 的开源、大规模、高质量数据集。数据集涵盖从全局风格更改到精确对象插入的多种编辑类型，填补了长期限制视频编辑 AI 模型进展的关键空白。作者同时发布了基准测试套件（OpenVE‑Bench）和一个 50 亿参数的模型（OpenVE‑Edit），在该基准上创下了新的性能纪录。

主要贡献

OpenVE‑3M 数据集：300 万对视频‑编辑样本，配有人类可读的编辑指令，覆盖 8 种不同的编辑类别（包括空间对齐和非对齐编辑）。
严格的数据流水线：自动生成、多阶段质量过滤以及人工验证，确保高视觉保真度和指令相关性。
OpenVE‑Bench：精心挑选的 431 对视频‑编辑样本，提供三个评估指标（时序一致性、编辑准确性和感知质量），这些指标与人工评价高度相关。
OpenVE‑Edit 模型：在 OpenVE‑3M 上训练的 50 亿参数指令引导视频编辑模型，达到业界领先水平，且性能超越了先前开源工作中的 140 亿基线模型。
开源发布：所有数据、代码和模型权重均公开，可促进可复现性和社区驱动的扩展。

方法论

数据生成
- 从免版税的高分辨率视频片段库中抽取素材。
- 应用一套确定性的视频操作算子（如颜色分级、背景替换、对象插入/删除、字幕编辑）。
- 对每一次操作，自动合成一条自然语言指令，描述期望的编辑内容。
质量过滤
- 自动检查：使用预训练感知模型检测视觉伪影、时序抖动以及音视频不同步等问题。
- 人工审查：小组随机抽样验证指令与编辑的一致性，剔除异常样本。
基准构建（OpenVE‑Bench）
- 采样一个覆盖所有编辑类别的平衡子集。
- 为每段视频获取三项人工评分：时序一致性、编辑准确性 与 感知质量。
- 推导出与这些评分对齐的复合指标，用于自动评估。
模型训练（OpenVE‑Edit）
- 架构：基于扩散的视频生成器，条件为源视频和文本指令。
- 训练方案：50 亿参数，使用 64 块 A100 GPU，混合精度训练约 2 周。
- 课程学习：先从简单的全局编辑开始，逐步引入更复杂的局部和非对齐编辑。

结果与发现

指标（数值越高越好）	OpenVE‑Edit (5 B)	先前开源 14 B 基线	人类上限
时序一致性 (TC)	0.84	0.78	0.92
编辑准确性 (EA)	0.81	0.73	0.89
感知质量 (PQ)	0.86	0.80	0.94

OpenVE‑Edit 在所有三项指标上均超越 更大的 14 B 基线，证明数据质量与多样性可以抵消单纯的模型规模。
人工评估显示，该模型的输出距离人类上限仅约 10 %，对一个 5 B 模型而言是显著的成就。
消融实验表明，每一种编辑类别都有独特贡献；去除非空间对齐编辑会导致整体性能下降约 6 %。

实际意义

快速原型化视频特效：开发者可将 OpenVE‑Edit 集成到内容创作流水线中，仅凭文本指令即可实现风格迁移、背景替换或字幕更新等操作。
可扩展的视频个性化：营销平台能够在无需人工编辑的情况下，批量生成数千条定制化视频广告（如品牌专属配色）。
增强视频编辑工具：现有桌面或云端编辑器可提供“自然语言编辑”按钮，降低非技术创作者的使用门槛。
加速科研：OpenVE‑Bench 提供统一的评测基准，便于后续指令引导视频模型的公平比较。
成本效益部署：由于最先进的性能已在 5 B 模型上实现，推理可在单块高端 GPU，甚至专用推理硬件上运行，降低 SaaS 服务的成本。

局限性与未来工作

领域偏差：源视频主要来自免版税素材库，对高度电影化或用户生成内容（如抖动的手机拍摄）可能表现不佳。
指令长度：虽然数据集中包含较长的提示，但极其复杂的多步骤指令仍然不足。
音频处理：当前流水线侧重视觉编辑，未覆盖同步音频的变换（如配音替换）。
实时编辑：推理时延仍在每段短视频数秒级，真正的实时编辑仍是未解难题。

未来工作可以扩展数据集以覆盖更丰富的拍摄条件，加入多模态（音视频）编辑指令，并探索模型蒸馏技术，以在不牺牲质量的前提下降低延迟。

作者

何浩阳
王杰
张江宁
薛竹存
卜星远
杨强鹏
文世磊
谢磊

论文信息

arXiv ID: 2512.07826v1
分类: cs.CV
发表时间: 2025 年 12 月 8 日
PDF: Download PDF

[论文] OpenVE-3M：大规模高质量的指令引导视频编辑数据集

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Spatia：可更新空间记忆的视频生成

[Paper] 追求像素监督以进行视觉预训练

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

[Paper] Gaussian Pixel Codec Avatars：一种用于高效渲染的混合表示