[Paper] VEFX-Bench:全方位基准用于通用视频编辑与视觉特效
发布: (2026年4月18日 GMT+8 01:28)
9 分钟阅读
原文: arXiv
Source: arXiv - 2604.16272v1
概述
本文介绍了 VEFX‑Bench,一个用于指令引导视频编辑和视觉特效的全端基准。通过将大规模人工标注的数据集(VEFX‑Dataset)与专门构建的奖励模型(VEFX‑Reward)相结合,作者提供了首个标准化方法来评估 AI 系统在遵循编辑指令、保持视觉质量以及局部化编辑方面的表现。
关键贡献
- VEFX‑Dataset:5,049 个真实世界的视频编辑示例,涵盖 9 大编辑类别(例如,色彩分级、对象移除、运动转移)和 32 个子类别,每个示例在三个正交维度上标注:
- 指令遵循 – 输出是否满足文本提示?
- 渲染质量 – 视觉保真度、伪影、时间一致性。
- 编辑排他性 – 更改是否仅限于预定的区域/时间?
- VEFX‑Reward:一种多模态奖励模型,能够同时输入源视频、自然语言指令和编辑后的视频,并通过序数回归输出每个维度的质量评分。
- VEFX‑Bench:一个精心挑选的 300 对源视频/指令组合,用于对任何视频编辑系统进行一致且可复现的基准测试。
- 综合评估:展示 VEFX‑Reward 与人类评判的相关性显著优于通用视觉语言模型评判器和已有奖励模型,涵盖标准的 IQA/VQA 指标和群体偏好测试。
- 实证调查:对商业(如 Adobe Firefly、Runway)和开源(如 Stable Diffusion Video、Sora‑Lite)编辑器进行基准测试,揭示了视觉可信度、指令遵循和编辑局部性之间持续存在的差距。
方法论
1. 数据收集与标注
- 从免版税视频库中挑选原始素材。
- 为每个剪辑编写自然语言编辑指令(例如,“为天空添加日出光晕”)。
- 从多种现有视频编辑模型获取编辑后的输出。
- 人工标注者使用 5 点序数尺度对每个输出在三个维度上进行评分,并通过双盲审查确保标注者间的一致性。
2. 奖励模型架构
- 主干:视频编码器(如 TimeSformer)对源视频和编辑后的视频逐帧处理,生成时空嵌入。
- 指令编码器:基于 Transformer 的语言模型(如 CLIP‑Text)对提示进行编码。
- 融合:交叉注意力层让模型推理编辑如何对应指令以及原始素材。
- 输出头:三个并行的序数回归头预测指令遵循度、渲染质量和编辑独占性得分。
3. 训练与验证
- 在 VEFX‑Dataset 的 80 % 上进行训练,剩余 20 % 用作验证,采用成对排序损失以鼓励质量层级的正确排序。
- 微调超参数,以最大化对保留的人类评分的 Spearman’s ρ。
4. 基准构建
- 选取 300 对视频‑提示,覆盖完整的分类体系并呈现不同难度(例如细微的颜色微调与大规模的对象插入)。
- 发布这些对及参考标注,但不提供编辑输出,以实现对任何系统的公平“盲评”。
结果与发现
| 指标 | VEFX‑Reward | 通用 VLM 判官 | 先前奖励模型 |
|---|---|---|---|
| Spearman’s ρ(指令遵循) | 0.78 | 0.52 | 0.61 |
| Spearman’s ρ(渲染质量) | 0.74 | 0.48 | 0.57 |
| Spearman’s ρ(编辑排他性) | 0.71 | 0.45 | 0.53 |
| 人类对齐偏好(成对比较) | 84 % | 62 % | 68 % |
- 更高的相关性:VEFX‑Reward 始终优于通用视觉语言判官,证实了任务特定奖励模型能够捕捉到通用模型遗漏的细微差别(例如时间闪烁、意外的背景变化)。
- 模型差距:即使是最好的商业系统在指令遵循上也仅得约 0.65,但在编辑排他性上仅约 0.48,表明当前流水线常出现“过度编辑”或残留伪影的情况。
- 开源滞后:开源模型在所有维度上均比商业产品低约 15 %,凸显了社区驱动改进的机会。
Practical Implications
- Standardized Evaluation Pipeline:开发者可以将 VEFX‑Reward 插入到训练循环中,作为可微分损失或事后评估器,从而加速快速迭代,避免昂贵的人类研究。
- Fine‑Tuning Guidance:这三个解耦的评分能够精准定位失败模式(例如视觉质量好但指令遵循度差),从而实现有针对性的微调或数据增强。
- Product Benchmarking:构建 AI 视频编辑器的公司现在拥有公开、可复现的基准(VEFX‑Bench),可以与竞争对手进行比较,并向客户展示进展。
- Safety & Trust:通过显式测量编辑排他性,该基准抑制了对非预期内容的“幻觉”生成——这是品牌安全视频生成的关键关注点。
- Research Roadmap:数据集的分类体系可作为多任务学习的课程,鼓励模型在单一架构中处理更广泛的编辑类型(例如光照、运动、合成)。
限制与未来工作
- 领域覆盖:源视频主要是短的免版税片段;较长的高分辨率作品(例如电影级镜头)代表性不足。
- 评分的主观性:虽然三个维度降低了歧义,但某些编辑(艺术风格变化)仍涉及主观判断,可能因文化差异而有所不同。
- 奖励模型的泛化能力:VEFX‑Reward 在 VEFX‑Dataset 的特定分布上进行训练;其在分布外提示(例如 3D 动画帧)上的表现仍需验证。
- 实时约束:当前奖励模型计算量大(完整视频编码)。未来工作可以探索轻量化近似,以实现设备端评估。
- 向多模态提示的扩展:将参考图像或音频线索与文本指令结合,是拓宽基准适用性的自然下一步。
底线:VEFX‑Bench 为开发者提供了一个稳健、与人类对齐的 AI 驱动视频编辑评估标准,将此前零散的评估方式转变为可重复、数据驱动的流程。通过采用该基准和奖励模型,团队可以加速模型改进,降低对昂贵人工评审的依赖,最终向终端用户交付更可靠、可控的视频编辑工具。
作者
- Xiangbo Gao
- Sicong Jiang
- Bangya Liu
- Xinghao Chen
- Minglai Yang
- Siyuan Yang
- Mingyang Wu
- Jiongze Yu
- Qi Zheng
- Haozhi Wang
- Jiayi Zhang
- Jared Yang
- Jie Yang
- Zihan Wang
- Qing Yin
- Zhengzhong Tu
论文信息
- arXiv ID: 2604.16272v1
- 分类: cs.CV, cs.AI, cs.CL
- 出版时间: 2026年4月17日
- PDF: 下载 PDF