[Paper] Video-CoM:通过操作链进行交互式视频推理
发布: (2025年11月29日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2511.23477v1
概览
本文提出 Video‑CoM,一种用于“交互式视频推理”的新方法,使模型能够将视频视为可操作的工作空间,而非静态快照。通过迭代执行视觉操作——倒回、缩放、聚焦区域以及提取帧——模型可以一步步收集证据,从而实现更深入的时空理解,并在具有挑战性的视频问答任务上获得更高的准确率。
主要贡献
- 交互式推理范式:从被动的“一次性思考”视频编码转变为模型在推理期间可以重新观看并重新聚焦视频片段的循环。
- 操作链(CoM):一系列结构化的视觉动作(例如时间裁剪、空间缩放、目标跟踪),模型学习执行这些动作以收集证据。
- Video‑CoM‑Instruct 数据集:18 K 条指令微调示例,专为多步操作推理设计。
- GRPO 训练:一种新颖的 Group Relative Policy Optimization 强化学习算法,提供步级推理奖励,鼓励一致且有依据的操作策略。
- 显著的实证提升:在九个视频推理基准上平均提升 3.6 %,且仅使用约 25 K 条监督样本和 3 K 条 RL 样本——远少于竞争的大规模模型。
- 可解释性:操作链可被人类阅读,便于调试和信任模型决策。
方法论
- 视频工作空间:原始视频存储为可变缓冲区。模型可以使用
seek(t)、crop(x,y,w,h)、track(object)或sample_frame()等动作查询该缓冲区。 - 语言‑视觉循环:
- LLM 接收文本提示(问题 + 指令)。
- 它输出 操作指令 以及简短的文字推理。
- 指令在视频缓冲区上执行,产生视觉观察(例如裁剪后的帧)。
- 观察被编码后反馈给 LLM,LLM 决定下一步。
- 循环持续,直至终止标记表明已收集足够证据以作答。
- 训练流程:
- 在 Video‑CoM‑Instruct 数据集上进行 监督微调 (SFT),教会模型从问题到操作序列的基本映射。
- 使用 强化学习 (GRPO) 通过两类奖励细化策略:(a) 答案正确性(稀疏)和 (b) 步级推理质量(密集),后者通过生成的推理与真实证据的对齐度来衡量。
- 模型架构:冻结的多模态编码器(如 CLIP‑ViT)处理视觉观察,解码器‑only LLM(如 LLaMA‑2)负责语言部分并预测下一个动作的 token 序列。
结果与发现
| 基准 | 先前最佳 | Video‑CoM(我们的) | Δ |
|---|---|---|---|
| MSVD‑QA | 71.2 % | 75.4 % | +4.2 |
| TGIF‑QA | 68.9 % | 73.1 % | +4.2 |
| ActivityNet‑QA | 63.5 % | 66.8 % | +3.3 |
| …(共 9 项) | — | +3.6 % 平均 | — |
- 样本效率:仅使用约 28 K 条训练样本即可实现上述提升,而许多竞争的 MLLM 使用了超过 1 M 条视频‑文本对。
- 消融实验:去除步级奖励会导致准确率下降约 2 %,且操作链变得更噪声,验证了推理感知 RL 的重要性。
- 可解释性:可视化操作链显示模型常常能够定位回答问题所需的精确时间窗口和空间区域,这是基线模型所做不到的。
实际意义
- 可调试的视频 AI:开发者可以检查操作链,了解模型为何给出某个答案,简化在安全关键领域(如自动驾驶视频日志)中的故障排查。
- 降低数据成本:样本高效的训练方式意味着企业可以在专有视频语料上微调强大的视频推理模型,而无需巨额标注预算。
- 增强交互式应用:语音助手、视频编辑器或监控分析可以提出后续问题(“展示人物左转的那一刻”),并实时生成具体的视觉证据。
- 模块化集成:由于视觉动作被定义为类似 API 的指令,Video‑CoM 可直接嵌入现有视频流水线(FFmpeg、OpenCV),无需重新设计整个模型堆栈。
- 提升 LLM 的感知 grounding:该方法展示了一条为大型语言模型赋予主动感知能力的具体路径,为实现更通用的 AI 助手奠定基础。
局限性与未来工作
- 动作空间过于简化:当前仅支持基本的裁剪、时间定位和目标跟踪;更丰富的动作(如光流分析、3D 姿态估计)有望进一步提升推理深度。
- 对长视频的可扩展性:工作空间假设整个视频可随机访问;对流式或超长视频可能需要层次化缓冲策略。
- 奖励设计:虽然步级推理奖励提升了性能,但其依赖于启发式(如与真实证据的重叠),在全新领域可能不具通用性。
- 多模态输入的泛化:将该范式扩展到音频、字幕或传感器数据仍是未解之题。
作者建议探索更丰富的操作原语、层次化视频记忆以及音视频联合推理作为后续方向。
作者
- Hanoona Rasheed
- Mohammed Zumri
- Muhammad Maaz
- Ming-Hsuan Yang
- Fahad Shahbaz Khan
- Salman Khan
论文信息
- arXiv ID: 2511.23477v1
- 类别: cs.CV
- 发表时间: 2025 年 11 月 28 日
- PDF: Download PDF