[论文] 视频证据推理:通过显式证据定位实现高效视频理解

发布: (2026年1月13日 GMT+8 01:46)
6 min read
原文: arXiv

Source: arXiv - 2601.07761v1

概述

本文解决了大规模视觉‑语言模型(LVLM)在视频推理中的一个核心瓶颈:如何在保持事实依据的前提下加快推理速度。作者提出了 Chain of Evidence (CoE) 框架,该框架首先提取一组简洁的视觉“证据”片段,然后强制语言模型仅基于这些锚点给出答案。通过这种方式,CoE 大幅削减计算量,同时显著降低幻觉现象,在多个视频理解基准上设立了新的性能标杆。

关键贡献

  • 证据链(CoE)框架,将视觉定位与文本推理清晰分离,实现两阶段的联合优化。
  • 证据定位模块(EGM)——一种轻量级、查询引导的过滤器,选择最小且高质量的视频帧/片段子集作为证据。
  • 证据锚定协议,使用强化学习(RL)和复合奖励进行训练,惩罚偏离已识别锚点的推理。
  • CoE‑Instruct 数据集(≈164 k 条样本),采用双标注方案:分别标注感知(看什么)和推理(如何回答)。
  • 最先进的结果,在五个视频‑QA/理解基准(Video‑MME、MVBench、VSI‑Bench 等)上取得一致的准确率提升,并显著降低幻觉率。

方法论

  1. 查询引导的证据提取 – 当用户就视频提问时,EGM 接收文本查询和原始视频帧。它运行快速视觉编码器(例如轻量级 ConvNet 或 ViT),为每个时间段打分以评估相关性,仅返回排名前 k 的段落(通常为 2–4)。
  2. 证据锚定推理 – 选中的证据剪辑连同原始查询一起输入预训练的 LVLM(例如 LLaVA‑Video 或 Flamingo)。模型的解码器受限于基于 RL 的策略,该策略对以下方面给予奖励:
    • 对齐 – 引用作为证据使用的精确时间戳/段落。
    • 正确性 – 与真实答案匹配。
    • 效率 – 保持答案简短。
      复合奖励促使模型将每一步推理“锚定”到具体的视觉片段,从而将思考链转化为证据链。
  3. 训练流水线 – 首先在 CoE‑Instruct 的感知部分(段级相关性标签)上对 EGM 进行预训练。随后在整个 CoE 系统上进行端到端的 RL 微调,使得 grounding 与 reasoning 组件能够共同适应。

结果与发现

  • Accuracy boost:在五个基准测试中,CoE‑enhanced 模型相较于使用全视频推理的强基线,top‑1 准确率提升 4–9 %
  • Hallucination reduction:包含不支持主张的答案比例从约 22 % 降至 <7 %(通过人工评估和自动事实检查测得)。
  • Speedup:由于仅处理少量片段,推理时间相比于需要关注整段视频的方法缩短约 ≈45 %
  • Ablation studies 证实 EGM 与基于 RL 的锚定两者均必不可少;去除 RL 奖励会导致准确率下降 3 %,幻觉增加 12 %

实际影响

  • 成本效益高的视频 AI 服务 – 云服务提供商可以提供在更便宜的 GPU 实例上运行的视频 QA 或摘要 API,因为帧预算降低了。
  • 更可信的助手 – 虚拟代理(例如引用产品演示视频的客服机器人)现在可以指向精确的时间戳,提升用户信任度和可审计性。
  • 开发者友好的集成 – EGM 足够轻量,可作为现有视频‑LLM 流水线(如 Hugging Face Transformers)的插件打包,只需在领域特定数据上进行少量微调。
  • 监管合规 – 在 AI 解释必须可追溯的行业(如医学影像、自动驾驶),证据锚定机制提供了将答案与视觉证据关联的具体审计轨迹。

限制与未来工作

  • 领域转移 – EGM 在 CoE‑Instruct 数据集上训练,该数据集侧重于相对干净、短小的剪辑。 在噪声极大或极长的视频(例如监控录像)上性能可能下降。
  • 强化学习稳定性 – 强化学习阶段对奖励权重敏感;要复现精确的训练动态可能需要仔细的超参数调优。
  • 标注可扩展性 – 双标注方案工作量大;将 CoE‑Instruct 扩展到新领域需要高效的半自动标注工具。
  • 作者提出的未来方向 包括:
    1. 自监督证据发现,以降低标注成本。
    2. 分层证据链,用于多步推理。
    3. 与多模态检索系统集成,以用于开放世界视频语料库。

作者

  • Yanxiang Huang
  • Guohua Gao
  • Zhaoyang Wei
  • Jianyuan Ni

论文信息

  • arXiv ID: 2601.07761v1
  • 分类: cs.CV
  • 出版日期: 2026年1月12日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »