[Paper] LongVideoAgent:多智能体推理与长视频
发布: (2025年12月24日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.20618v1
Overview
本文介绍了 LongVideoAgent,一个多代理系统,使大型语言模型(LLM)能够对长达数小时的视频片段进行推理,而无需将其压缩为有损摘要。通过将 grounding 和视觉提取委派给专门的代理,该框架实现了对长视频问答(QA)任务的细粒度、时间定位的答案,在新发布的 LongTVQA 和 LongTVQA+ 数据集上设立了新的基准。
关键贡献
- Multi‑agent architecture:一个主 LLM 协调 grounding agent(定位相关视频片段)和 vision agent(生成针对性的文本观察)。
- Reinforcement‑learning (RL) fine‑tuning:使用步数受限的奖励对主代理进行训练,以平衡答案正确性、简洁性和计算效率。
- New episode‑level benchmarks:LongTVQA 和 LongTVQA+ 汇集了 TVQA/TVQA+ 中的完整电视集,提供了用于小时级视频推理的真实测试平台。
- Interpretability:系统生成明确的推理轨迹——定位的时间戳和提取的观察结果,供开发者检查。
- State‑of‑the‑art performance:多代理流水线在两个数据集上均以显著优势超越强大的非代理基线。
方法论
- 主 LLM(规划器) – 接收用户问题,并逐步决定要调用的子任务。它受到最大推理步骤数的限制,以保持推理的可处理性。
- 检索代理 – 根据来自主规划器的文本提示,在长视频中搜索(使用预先计算的视觉嵌入和字幕),返回最有可能包含答案的短片段(例如 5 秒窗口)。
- 视觉代理 – 对选定的片段运行视觉‑语言模型,生成简明的文本观察(对象名称、动作、场景变化),以补充字幕文本。
- 迭代循环 – 主规划器可以请求额外的检索/视觉处理,细化其假设,最终生成答案。
- 强化学习训练 – 奖励函数惩罚不必要的步骤,奖励正确答案。使用近端策略优化(PPO)微调主规划器的策略,同时保持检索和视觉代理冻结。
整个流水线可在普通 GPU 上运行;检索和视觉模块可以在不重新训练主规划器的情况下替换为更新的模型。
结果与发现
| 模型 | 准确率 (LongTVQA) | 准确率 (LongTVQA+) |
|---|---|---|
| 基线 LLM + 全视频拼接 | 42.3 % | 38.7 % |
| 检索增强 LLM | 48.9 % | 45.1 % |
| LongVideoAgent (w/ RL) | 57.4 % | 53.2 % |
| LongVideoAgent (no RL) | 54.1 % | 50.8 % |
- RL 微调 提升了正确率和步骤效率(平均步骤数从 7.2 降至 5.4)。
- 定位 减少了无关上下文:84 % 的检索片段包含答案跨度,而朴素滑动窗口检索仅为 61 %。
- 视觉观察 相较仅使用字幕的基线额外提升约 12 % 的绝对准确率,验证了视觉细节的价值。
Practical Implications
- Content‑aware assistants: 开发者可以构建聊天机器人,直接回答用户关于完整电影、讲座或监控录像的查询,无需预先对媒体进行摘要。
- Efficient indexing: 基础代理在预先计算的嵌入上工作,即使在TB级别的视频档案中也能实现快速检索。
- Modular upgrades: 随着更好的视觉语言模型出现(例如 Flamingo‑2、GPT‑4V),它们可以替换视觉代理,立即提升性能。
- Explainable AI: 明确的剪辑时间戳和观察日志使得在媒体分析流水线中更容易调试或满足审计要求。
- Reduced compute cost: 通过将计算集中在少量短剪辑上,而不是处理整段视频,推理成本大幅下降(相较于端到端视频大模型约降低 70 % 的 FLOPs)。
限制与未来工作
- 依赖字幕:当前的 grounding agent 大量利用字幕时间戳;缺乏准确字幕的视频可能性能下降。
- 固定步数预算:虽然步数限制可以保持推理成本低,但可能截断复杂的多跳推理;自适应预算是一个待探索的方向。
- 视觉代理的可扩展性:处理高分辨率片段仍然会产生不小的 GPU 负载;未来工作可以探索轻量化视觉分词器或层次注意力。
- 超出电视的泛化:数据集聚焦于剧本化的电视集;将该框架应用于纪录片、体育或用户生成内容需要特定领域的 grounding 线索。
LongVideoAgent 展示了协同多代理方法可以最终让开发者在实际中对长达数小时的视频进行推理,为更丰富、具备时间感知的 AI 应用打开了大门。
作者
- Runtao Liu
- Ziyi Liu
- Jiaqi Tang
- Yue Ma
- Renjie Pi
- Jipeng Zhang
- Qifeng Chen
论文信息
- arXiv ID: 2512.20618v1
- 分类: cs.AI, cs.CV, cs.LG, cs.MA
- 出版时间: 2025年12月23日
- PDF: 下载 PDF