[Paper] VideoAtlas:在对数计算中导航长篇视频
发布: (2026年3月19日 GMT+8 01:20)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.17948v1
(请提供您希望翻译的正文内容,我将为您翻译成简体中文。)
概述
本文介绍了 VideoAtlas,这是一种新颖的长视频表示和导航方式,避免了大多数当前视频语言模型使用的有损文本或帧摘要。通过将视频组织成层次化、无损的网格,系统使语言模型能够“放大”任意区域,计算量仅呈对数增长,从而在实际中能够对数小时的录像进行推理。
关键贡献
- Hierarchical Grid Representation – 一种无损、无需字幕的结构,使得视频的任何部分都可以递归访问,类似地图服务对地理区域的放大。
- Video‑RLM Architecture – 一个 Master‑Worker 并行框架,将递归语言模型(RLM)与 VideoAtlas 环境耦合,将视频理解转化为马尔可夫决策过程。
- Logarithmic Compute Scaling – 证明处理成本仅随 log (视频长度)增长,得益于可复用的网格单元,实现 30‑60 % 的缓存命中率。
- Environment Budgeting – 引入一个原则性的超参数(最大探索深度),在计算量与准确率之间进行权衡。
- Adaptive Compute Allocation – 展示系统会自动在细粒度问题上投入更多计算,而在粗粒度查询上投入更少。
方法论
- Video Grid Construction – 将每段视频拆分为多层次的时空网格(例如,level‑0 = 整个视频,level‑1 = 10 分钟块,level‑2 = 1 分钟剪辑,等等)。每个单元格存储其时间跨度内的原始像素数据,保持完整的视觉保真度。
- Markov Decision Process (MDP) Formulation – 代理的状态是当前单元格;动作包括“放大”“缩小”或“保持”。奖励与代理的答案与真实标注的匹配程度挂钩。
- Recursive Language Model (RLM) – 一种 transformer‑style 模型,能够在子问题上自我调用。Master RLM 决定要探索的高层单元格,而 Worker RLM 则并行处理选中的子单元格,每个返回视觉证据。
- Caching & Reuse – 由于许多查询共享重叠的单元格,单元格的计算嵌入会被缓存。后续的 worker 可以即时检索,从而实现文中所述的 30‑60 % 缓存命中率提升。
- Budget Control – 对递归深度(即“环境预算”)设定硬性上限,限制访问的单元格总数,为开发者提供一个单一的调节旋钮,以在延迟和答案质量之间取得平衡。
Source: …
结果与发现
| 基准(时长) | 基线(线性计算) | Video‑RLM(对数计算) | 准确率 Δ |
|---|---|---|---|
| 1 hour | 1× compute | 0.9× compute | –0.2 % |
| 5 hours | 5× compute | 1.3× compute | –0.5 % |
| 10 hours | 10× compute | 1.7× compute | –0.8 % |
- 计算增长: 随着视频时长增加十倍,Video‑RLM 的计算量仅增长约 1.8 倍,验证了对数缩放。
- 缓存效果: 在所有运行中,30‑60 % 的单元嵌入是从缓存中检索的,进一步降低了延迟。
- 深度预算: 将递归深度限制在 4 层,使每次查询的延迟保持在 2 秒以下,同时准确率损失 <1 %,展示了计算‑准确率的清晰权衡。
- 自适应行为: 对于高层次的 “整体发生了什么?” 问题,Master 保持在浅层;对于 “第 X 帧在第 42 分钟时有什么对象?” 的问题,Workers 会深入到最细网格,自动在需要的地方分配更多计算资源。
实际意义
- 可扩展的视频问答与检索: 开发者可以构建助手,回答关于监控录像、体育回放或讲座录音的问题,而无需为每一帧预先计算密集的字幕或嵌入。
- 成本效益高的云部署: 对数计算特性转化为可预测、低成本的推理,即使是多小时视频,也能实现大规模视频理解 API 的提供。
- 实时视频分析: 由于工作者可以并行运行并复用缓存单元,实时流媒体管道可以维护滚动的 VideoAtlas,实现即时诊断(例如工业视频流中的异常检测)。
- 模块化集成: VideoAtlas 与任务无关;同一网格可以为摘要、字幕生成或动作检测等下游模型提供输入,减少了独立预处理管道的需求。
限制与未来工作
- 内存占用: 为每个网格单元存储原始像素数据可能占用大量内存,尤其是高分辨率 4K 视频;作者建议使用有损压缩作为可能的缓解措施,但尚未评估其影响。
- 网格粒度选择: 选择最佳的时空粒度仍然是经验性的;基于场景动态的自适应网格细化仍是未解决的问题。
- 向非结构化领域的泛化: 当前的 MDP 假设视频语义相对稳定;高度混乱或快速变化的场景(例如节奏快的电子游戏)可能需要更复杂的导航策略。
- 基准多样性: 实验主要聚焦于小时级别的基准;将评估扩展到流媒体、多摄像头设置或多模态(音视频)任务留待未来研究。
VideoAtlas 为实现真正可扩展的无损视频理解开辟了有前景的道路——将数小时的影像转化为可导航的地图,使语言模型能够以最小的计算开销进行探索。
作者
- Mohamed Eltahir
- Ali Habibullah
- Yazan Alshoibi
- Lama Ayash
- Tanveer Hussain
- Naeemullah Khan
论文信息
- arXiv ID: 2603.17948v1
- Categories: cs.CV, cs.AI
- Published: 2026年3月18日
- PDF: 下载 PDF