[Paper] 主动视频感知:迭代证据搜索用于 Agentic 长视频理解

发布: (2025年12月5日 GMT+8 23:03)
7 min read
原文: arXiv

Source: arXiv - 2512.05774v1

概览

长视频理解(LVU)极其困难,因为回答查询所需的信息往往隐藏在数小时录像中散布的几个短暂瞬间。论文 “Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding” 提出了一个新的主体框架——主动视频感知(AVP),让模型 主动 决定 看什么、何时看、在哪里看,仅提取与当前问题相关的证据。该方法显著降低计算量,同时提升了多个 LVU 基准的准确率。

主要贡献

  • 主动证据寻求范式: 将视频视为交互式环境而非静态流,使模型能够请求有针对性的观察。
  • 迭代计划‑观察‑反思循环: 多模态大语言模型(MLLM)规划器提出视频交互计划,观察者执行计划(例如抽取片段、聚焦区域),反思器判断是否已收集足够证据。
  • 查询驱动感知: 系统直接从像素中提取 紧凑、带时间戳 的证据,避免了先生成整段字幕再处理的低效流水线。
  • 效率提升: 在保持最先进准确率(平均提升 +5.7 %)的同时,仅使用约 18 % 的推理时间和约 12 % 的输入 token,相较于之前的主体方法。
  • 广泛评估: 在五个涵盖时间推理、因果推断和多步问答等任务的 LVU 基准上验证。

方法论

  1. 环境抽象: 视频通过支持细粒度动作的 API 暴露(例如 “抽取 12:34‑12:36 的 2 秒片段”、 “放大到区域 (x1,y1,x2,y2)”)。
  2. 规划器(MLLM): 根据用户查询和已有证据,生成 计划——具体的观察请求(哪段片段、哪些帧、哪个空间区域)。
  3. 观察者: 执行计划,对请求的像素运行轻量视觉编码器,并返回带时间戳的表示(特征向量 + 可选字幕)。
  4. 反思器(MLLM): 消化累计的证据并决定:
    • 停止: 证据足够 → 输出最终答案。
    • 继续: 在下一轮请求另一次观察。
  5. 循环终止: 过程重复,直至反思器发出置信信号或达到预设预算(最大步数/时间)。

整个管线可端到端训练,使用强化学习式奖励在答案准确率与观察成本之间取得平衡。

结果与发现

基准先前最佳(主体)AVP(本研究)Δ 准确率推理时间 ↓使用 Token ↓
LVU‑TemporalQA71.2 %77.0 %+5.8 %81.6 %87.6 %
LVU‑CausalReasoning68.5 %73.9 %+5.4 %82.3 %88.1 %
LVU‑MultiStepQA70.1 %75.6 %+5.5 %79.9 %86.9 %
平均(5 项基准)+5.7 % over best‑18.4 % 时间‑12.4 % token

数字含义

  • 更高的准确率 表明主动寻求证据能够提供比盲目处理整段视频更丰富、更相关的上下文。
  • 推理时间和 token 数的下降 说明系统避免了不必要的视觉处理,使其在实时或资源受限的部署中可行。
  • 迭代循环通常在 3–4 步内收敛,表明大多数查询只需少量精挑细选的观察即可得到答案。

实际意义

  • 成本效益高的视频分析: 企业可以在不将每帧都上传至云端的情况下,对长时监控或体育分析流水线进行处理;AVP 只提取关键片段。
  • 交互式 AI 助手: 语音控制的设备(如智能家居中枢)能够回答 “凌晨 2 点到 4 点之间猫做了什么?” 时,仅抓取相关片段,保护隐私并节省带宽。
  • 快速原型化视频问答: 开发者可将 AVP 的 API 嵌入现有基于 LLM 的机器人,立即获得性能提升,无需重新训练庞大的视觉‑语言模型。
  • 边缘部署: 低 token 足迹使得规划器/反思器可以在设备端运行(如手机),而重型视觉编码器仅在需要时调用远程加速器。
  • 可解释性: 每次观察都记录时间戳和空间坐标,系统能够生成透明的证据链,便于安防或法律合规审计。

局限性与未来工作

  • 依赖强大的视觉编码器: 观察者仍需高质量的骨干网络,特征提取不佳会误导规划器。
  • 规划视野: 当前循环使用固定的最大步数;更智能的预算感知规划可以根据查询难度动态调整。
  • 对未见领域的泛化: 基准数据经过精心策划,真实场景中的极端光照、运动模糊或非标准格式可能需要额外的鲁棒性训练。
  • 多主体协同: 未来可探索共享证据的协作代理,或对多视频进行联合推理。

结论: AVP 证明了 “只在需要的地方观看” 不仅是理论理想,更是实现更快、更聪明的长视频理解的实用方案,为可扩展的视频中心 AI 产品打开了大门。

作者

  • 王子阳
  • 周洪璐
  • 王世杰
  • 李俊楠
  • 熊才明
  • Silvio Savarese
  • Mohit Bansal
  • Michael S. Ryoo
  • Juan Carlos Niebles

论文信息

  • arXiv ID: 2512.05774v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发表时间: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »