[Paper] Video-CoM：通过操作链进行交互式视频推理

发布: 2个月前 (2025年11月29日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.23477v1

概览

本文提出 Video‑CoM，一种用于“交互式视频推理”的新方法，使模型能够将视频视为可操作的工作空间，而非静态快照。通过迭代执行视觉操作——倒回、缩放、聚焦区域以及提取帧——模型可以一步步收集证据，从而实现更深入的时空理解，并在具有挑战性的视频问答任务上获得更高的准确率。

交互式推理范式：从被动的“一次性思考”视频编码转变为模型在推理期间可以重新观看并重新聚焦视频片段的循环。
操作链（CoM）：一系列结构化的视觉动作（例如时间裁剪、空间缩放、目标跟踪），模型学习执行这些动作以收集证据。
Video‑CoM‑Instruct 数据集：18 K 条指令微调示例，专为多步操作推理设计。
GRPO 训练：一种新颖的 Group Relative Policy Optimization 强化学习算法，提供步级推理奖励，鼓励一致且有依据的操作策略。
显著的实证提升：在九个视频推理基准上平均提升 3.6 %，且仅使用约 25 K 条监督样本和 3 K 条 RL 样本——远少于竞争的大规模模型。
可解释性：操作链可被人类阅读，便于调试和信任模型决策。

视频工作空间：原始视频存储为可变缓冲区。模型可以使用 seek(t)、crop(x,y,w,h)、track(object) 或 sample_frame() 等动作查询该缓冲区。
语言‑视觉循环：
- LLM 接收文本提示（问题 + 指令）。
- 它输出 操作指令 以及简短的文字推理。
- 指令在视频缓冲区上执行，产生视觉观察（例如裁剪后的帧）。
- 观察被编码后反馈给 LLM，LLM 决定下一步。
- 循环持续，直至终止标记表明已收集足够证据以作答。
训练流程：
- 在 Video‑CoM‑Instruct 数据集上进行 监督微调 (SFT)，教会模型从问题到操作序列的基本映射。
- 使用 强化学习 (GRPO) 通过两类奖励细化策略：(a) 答案正确性（稀疏）和 (b) 步级推理质量（密集），后者通过生成的推理与真实证据的对齐度来衡量。
模型架构：冻结的多模态编码器（如 CLIP‑ViT）处理视觉观察，解码器‑only LLM（如 LLaMA‑2）负责语言部分并预测下一个动作的 token 序列。

基准	先前最佳	Video‑CoM（我们的）	Δ
MSVD‑QA	71.2 %	75.4 %	+4.2
TGIF‑QA	68.9 %	73.1 %	+4.2
ActivityNet‑QA	63.5 %	66.8 %	+3.3
…（共 9 项）	—	+3.6 % 平均	—

可调试的视频 AI：开发者可以检查操作链，了解模型为何给出某个答案，简化在安全关键领域（如自动驾驶视频日志）中的故障排查。
降低数据成本：样本高效的训练方式意味着企业可以在专有视频语料上微调强大的视频推理模型，而无需巨额标注预算。
增强交互式应用：语音助手、视频编辑器或监控分析可以提出后续问题（“展示人物左转的那一刻”），并实时生成具体的视觉证据。
模块化集成：由于视觉动作被定义为类似 API 的指令，Video‑CoM 可直接嵌入现有视频流水线（FFmpeg、OpenCV），无需重新设计整个模型堆栈。
提升 LLM 的感知 grounding：该方法展示了一条为大型语言模型赋予主动感知能力的具体路径，为实现更通用的 AI 助手奠定基础。

作者建议探索更丰富的操作原语、层次化视频记忆以及音视频联合推理作为后续方向。