[Paper] 使用 VideoScience-Bench 对视频生成的科学理解与推理进行基准测试

发布: (2025年12月3日 GMT+8 01:11)
8 min read
原文: arXiv

Source: arXiv - 2512.02942v1

概览

一个名为 VideoScience-Bench 的新基准将视频生成模型的评估从视觉逼真度提升到科学推理层面。通过测试模型是否能够合成遵循本科水平物理和化学定律的视频,作者揭示了当前视频生成研究中的关键盲点,并提供了一种具体的方法来衡量向真正的“零样本”推理系统的进展。

关键贡献

  • 首个面向视频生成的科学推理基准 – 包含 200 条精心策划的提示,覆盖 14 个主题和 103 个物理、化学概念。
  • 多维评估框架 – 对模型在提示一致性、现象一致性、动态正确性、不可变性以及时空连续性等方面进行评分。
  • 与人类对齐的自动评判 – 使用视觉语言模型(VLM)作为“评审”,并证明其与专家人工评分高度相关。
  • 全面的实证研究 – 对七种最先进的文本到视频(T2V)和图像到视频(I2V)模型进行基准测试,揭示了科学理解方面的系统性缺口。
  • 开源数据与评估代码 – 基准、提示和评估脚本均公开发布,便于复现和社区扩展。

方法论

  1. 提示设计 – 每个基准条目都是一个自然语言描述,融合多个科学概念(例如 “一根金属棒一端受热,另一端浸入液氮中”)。提示经过领域专家审查,确保需要真正的推理,而非仅仅视觉模式匹配。
  2. 视频生成 – 作者在两种设置下运行七个领先的视频生成模型(如 Make‑It‑3D、Imagen‑Video、Phenaki):
    • T2V – 直接根据文本提示生成。
    • I2V – 先根据提示生成关键帧图像,再对其进行动画化。
  3. 人工标注 – 由一组科学家对每个生成视频在五个维度上进行评分,以捕捉科学正确性和时间连贯性。
  4. VLM‑as‑Judge – 使用大型视觉语言模型(如 GPT‑4V)对相同维度进行评估。相关性分析表明 VLM 分数与人工判断高度一致,从而实现可扩展的基准评测。

该流程刻意保持轻量化:prompts → model → VLM judge,使得任何人都可以轻松接入新的视频生成器。

结果与发现

  • 整体科学忠实度低 – 即使是表现最好的模型,综合得分也不足 30 %,说明当前系统很少遵守基本的物理或化学定律。
  • 一致的失效模式 – 模型往往能够正确呈现外观,却在动力学上出错(例如物体应下落却漂浮),或忽视不可变性(例如本应不可逆的化学反应被表现为逆向进行)。
  • 提示一致性是最容易的维度 – 模型可以表面上遵循文本描述,却仍产生物理上不可能的运动。
  • VLM 评审可靠性 – 所有维度上 VLM 分数与人工评分的 Pearson 相关系数 > 0.85,验证了自动评估流水线的有效性。
  • I2V 与 T2V 对比 – 图像到视频的流水线在空间细节保持上更好,但在时间物理方面表现更差;而纯 T2V 模型有时能够捕捉动态,却以牺牲视觉真实感为代价。

实际意义

  • 安全关键的仿真 – 机器人、自动驾驶或虚拟实验室等行业不能依赖当前视频生成器来实现准确的物理仿真;VideoScience‑Bench 提供了一种诊断工具来评估准备程度。
  • 科学内容的提示工程 – 开发教育或培训视频的团队现在拥有一个基准,可测试其提示是否能产生科学上合理的输出。
  • 模型选择与微调 – 多维得分帮助团队识别需要针对性数据增强或架构改进的方面(如动态性 vs. 不可变性)。
  • 基础模型评估 – 随着多模态基础模型(如 GPT‑4V、Gemini)声称具备“推理”能力,VideoScience‑Bench 为验证这些模型在视觉领域的推理声明提供了具体的下游任务。
  • 数据集创建流水线 – 基准的提示生成方法可迁移到其他领域(如生物学、工程学),用于对生成模型进行领域特定推理的压力测试。

局限性与未来工作

  • 范围局限于本科物理/化学 – 更高级的主题(量子现象、流体动力学)尚未覆盖。
  • 静态提示集 – 虽然 200 条提示多样,但可能未覆盖真实科学场景的全部分布;未来工作可考虑程序化生成提示。
  • 依赖单一 VLM 评审 – 尽管相关性高,评审仍继承其训练数据的偏见;使用集成评审或任务特定微调可能提升鲁棒性。
  • 推理深度的评估 – 当前指标衡量结果正确性,但未考察模型的内部推理过程;通过探查模型内部或使用链式思考提示可获得更丰富的洞察。

通过揭示这些缺口,VideoScience‑Bench 为下一代不仅外观优秀且能够像科学家一样“思考”的视频模型奠定了基础。

作者

  • Lanxiang Hu
  • Abhilash Shankarampeta
  • Yixin Huang
  • Zilin Dai
  • Haoyang Yu
  • Yujie Zhao
  • Haoqiang Kang
  • Daniel Zhao
  • Tajana Rosing
  • Hao Zhang

论文信息

  • arXiv ID: 2512.02942v1
  • 分类: cs.CV, cs.AI
  • 发表时间: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »