[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

发布: 3周前 (2026年4月18日 GMT+8 01:28)

9 分钟阅读

原文: arXiv

Source: arXiv - 2604.16272v1

概述

本文介绍了 VEFX‑Bench，一个用于指令引导视频编辑和视觉特效的全端基准。通过将大规模人工标注的数据集（VEFX‑Dataset）与专门构建的奖励模型（VEFX‑Reward）相结合，作者提供了首个标准化方法来评估 AI 系统在遵循编辑指令、保持视觉质量以及局部化编辑方面的表现。

VEFX‑Dataset：5,049 个真实世界的视频编辑示例，涵盖 9 大编辑类别（例如，色彩分级、对象移除、运动转移）和 32 个子类别，每个示例在三个正交维度上标注：
1. 指令遵循 – 输出是否满足文本提示？
2. 渲染质量 – 视觉保真度、伪影、时间一致性。
3. 编辑排他性 – 更改是否仅限于预定的区域/时间？
VEFX‑Reward：一种多模态奖励模型，能够同时输入源视频、自然语言指令和编辑后的视频，并通过序数回归输出每个维度的质量评分。
VEFX‑Bench：一个精心挑选的 300 对源视频/指令组合，用于对任何视频编辑系统进行一致且可复现的基准测试。
综合评估：展示 VEFX‑Reward 与人类评判的相关性显著优于通用视觉语言模型评判器和已有奖励模型，涵盖标准的 IQA/VQA 指标和群体偏好测试。
实证调查：对商业（如 Adobe Firefly、Runway）和开源（如 Stable Diffusion Video、Sora‑Lite）编辑器进行基准测试，揭示了视觉可信度、指令遵循和编辑局部性之间持续存在的差距。

指标	VEFX‑Reward	通用 VLM 判官	先前奖励模型
Spearman’s ρ（指令遵循）	0.78	0.52	0.61
Spearman’s ρ（渲染质量）	0.74	0.48	0.57
Spearman’s ρ（编辑排他性）	0.71	0.45	0.53
人类对齐偏好（成对比较）	84 %	62 %	68 %

更高的相关性：VEFX‑Reward 始终优于通用视觉语言判官，证实了任务特定奖励模型能够捕捉到通用模型遗漏的细微差别（例如时间闪烁、意外的背景变化）。
模型差距：即使是最好的商业系统在指令遵循上也仅得约 0.65，但在编辑排他性上仅约 0.48，表明当前流水线常出现“过度编辑”或残留伪影的情况。
开源滞后：开源模型在所有维度上均比商业产品低约 15 %，凸显了社区驱动改进的机会。

Standardized Evaluation Pipeline：开发者可以将 VEFX‑Reward 插入到训练循环中，作为可微分损失或事后评估器，从而加速快速迭代，避免昂贵的人类研究。
Fine‑Tuning Guidance：这三个解耦的评分能够精准定位失败模式（例如视觉质量好但指令遵循度差），从而实现有针对性的微调或数据增强。
Product Benchmarking：构建 AI 视频编辑器的公司现在拥有公开、可复现的基准（VEFX‑Bench），可以与竞争对手进行比较，并向客户展示进展。
Safety & Trust：通过显式测量编辑排他性，该基准抑制了对非预期内容的“幻觉”生成——这是品牌安全视频生成的关键关注点。
Research Roadmap：数据集的分类体系可作为多任务学习的课程，鼓励模型在单一架构中处理更广泛的编辑类型（例如光照、运动、合成）。

底线：VEFX‑Bench 为开发者提供了一个稳健、与人类对齐的 AI 驱动视频编辑评估标准，将此前零散的评估方式转变为可重复、数据驱动的流程。通过采用该基准和奖励模型，团队可以加速模型改进，降低对昂贵人工评审的依赖，最终向终端用户交付更可靠、可控的视频编辑工具。