[Paper] Video-o3:原生交错线索寻求用于长视频多跳推理
Source: arXiv - 2601.23224v1
(请提供您希望翻译的具体文本内容,我将按照要求保留源链接并将其余部分翻译成简体中文。)
Overview
本文介绍了 Video‑o3,一种全新的多模态推理框架,使模型能够像人类一样在长视频中“搜索”——通过迭代地发现线索、放大细节并确认视觉提示,直至获得足够的证据来回答问题。通过将原生工具调用(例如片段检索、帧级检查)直接嵌入推理循环,Video‑o3 克服了现有长视频大语言模型依赖粗糙、统一抽样和单轮推理所导致的脆弱性。
关键贡献
- 交叉线索搜索循环 – 一种原生工具调用架构,在单一端到端模型中交替进行语言推理和视频特定操作(片段获取、帧缩放、终止)。
- 任务解耦注意力掩码 – 一种新颖的注意力方案,将推理步骤与工具调用步骤隔离,防止注意力“扩散”,同时仍共享全局视频上下文。
- 可验证轨迹引导奖励 – 一种强化学习奖励,在探索(覆盖更多视频)与效率(在收集足够证据后提前停止)之间取得平衡,使交互长度可控。
- Seeker‑173K 数据集 – 一个规模宏大的合成语料库,包含 173 K 条工具交互轨迹(问题 → 一系列视频工具调用 → 答案),支持交叉系统的监督预训练和强化学习微调。
- 最先进的性能 – Video‑o3 在 MLVU 基准上达到 72.1% 的准确率,在 Video‑Holmes 上达到 46.5%,显著超越了先前的多模态大语言模型在长视频多跳推理任务中的表现。
方法论
-
统一模型骨干 – 大型语言模型(LLM)配备了一套视频专用工具(段落选择器、帧提取器、证据验证器)。LLM 在每一步生成文本“计划”,其中可能包含工具调用。
-
任务解耦注意力 – 在推理步骤中,模型仅关注文本提示和全局视频嵌入。当发出工具调用时,使用独立的注意力掩码将工具特定的输入(例如时间戳、帧 ID)隔离,使模型能够专注于低层视觉操作,而不干扰高层推理上下文。
-
迭代循环 –
- 寻找:模型预测可能包含证据的段落。
- 检查:获取帧或子段进行细粒度检查。
- 验证:判断收集的证据是否足够;若不足,则重复。
-
训练流水线 –
- 监督式预训练 在 Seeker‑173K 上为模型提供示例轨迹。
- 强化学习 使用轨迹引导的奖励微调策略,以最大化正确答案并最小化不必要的工具调用。
-
终止策略 – 学习得到的“停止”标记使模型在置信度超过阈值时立即结束循环,防止交互长度失控。
Source: …
结果与发现
| 基准 | 之前的最佳水平 | Video‑o3 | Δ(绝对值) |
|---|---|---|---|
| MLVU(准确率) | 64.3 % | 72.1 % | +7.8 % |
| Video‑Holmes(准确率) | 38.2 % | 46.5 % | +8.3 % |
- 寻证效率 – 平均而言,Video‑o3 每个问题只需 3.2 次工具调用,而朴素的穷举基线需要 7.1 次调用,且准确率更高。
- 消融实验 – 移除任务解耦注意力会导致性能下降约 4 %,验证了其在保持推理焦点方面的作用。
- 奖励影响 – 轨迹引导奖励将平均交互长度缩短了 28 %,且未降低准确率,展示了有效的权衡控制。
实际意义
- 开发者友好的 API – 原生的工具调用设计可以干净地映射到函数调用接口(例如 OpenAI 函数调用),使得将 Video‑o3 嵌入现有 LLM 流程变得直接。
- 成本效益高的视频 QA – 仅为重要片段提取高分辨率帧,相比于暴力帧抽样方法,大幅降低云计算和存储成本。
- 真实场景用例 –
- 客户支持:从长篇产品演示视频中自动排查问题(例如 “打印机什么时候卡纸?”)。
- 内容审核:在数小时的直播中定位违规时刻,无需逐秒扫描。
- 教育:对讲座录音进行交互式问答,系统可以跳转到准确的幻灯片或演示环节。
- 可扩展性 – 该框架可通过领域特定工具(例如 OCR、语音转文字)进行扩展,以处理超出原始像素的多模态证据。
限制与未来工作
- 合成训练偏差 – Seeker‑173K 是自动生成的;虽然覆盖了许多模式,但可能会遗漏在真实野外视频中出现的边缘案例推理策略。
- 对超长流的可扩展性 – 交互长度仍受限于大语言模型的上下文窗口;处理多小时的流可能需要层次化摘要或外部记忆。
- 工具集通用性 – 当前工具箱侧重于片段/帧检索;添加更丰富的模态(音频、字幕、元数据)留待未来扩展。
- 可解释性 – 虽然模型记录了其工具调用,但如何呈现人类可读的“推理追踪”,让非技术用户能够审计,仍是一个未解决的挑战。
Video‑o3 表明,赋予大语言模型原生、迭代式访问视频专用工具的能力,可以将“黑箱”模型转变为主动调查者,显著提升长视频多跳推理能力,同时保持计算预算在可接受范围内。对于构建下一代视频助理的开发者而言,本文提供了可供仿效的具体架构以及用于启动训练的大规模合成数据集。
作者
- Xiangyu Zeng
- Zhiqiu Zhang
- Yuhan Zhu
- Xinhao Li
- Zikang Wang
- Changlian Ma
- Qingyu Zhang
- Zizheng Huang
- Kun Ouyang
- Tianxiang Jiang
- Ziang Yan
- Yi Wang
- Hongjie Zhang
- Yali Wang
- Limin Wang
论文信息
- arXiv ID: 2601.23224v1
- 分类: cs.CV
- 发布时间: 2026年1月30日
- PDF: 下载 PDF