[Paper] VideoAtlas：在对数计算中导航长篇视频

发布: 1天前 (2026年3月19日 GMT+8 01:20)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.17948v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文。）

概述

本文介绍了 VideoAtlas，这是一种新颖的长视频表示和导航方式，避免了大多数当前视频语言模型使用的有损文本或帧摘要。通过将视频组织成层次化、无损的网格，系统使语言模型能够“放大”任意区域，计算量仅呈对数增长，从而在实际中能够对数小时的录像进行推理。

Hierarchical Grid Representation – 一种无损、无需字幕的结构，使得视频的任何部分都可以递归访问，类似地图服务对地理区域的放大。
Video‑RLM Architecture – 一个 Master‑Worker 并行框架，将递归语言模型（RLM）与 VideoAtlas 环境耦合，将视频理解转化为马尔可夫决策过程。
Logarithmic Compute Scaling – 证明处理成本仅随 log （视频长度）增长，得益于可复用的网格单元，实现 30‑60 % 的缓存命中率。
Environment Budgeting – 引入一个原则性的超参数（最大探索深度），在计算量与准确率之间进行权衡。
Adaptive Compute Allocation – 展示系统会自动在细粒度问题上投入更多计算，而在粗粒度查询上投入更少。

Video Grid Construction – 将每段视频拆分为多层次的时空网格（例如，level‑0 = 整个视频，level‑1 = 10 分钟块，level‑2 = 1 分钟剪辑，等等）。每个单元格存储其时间跨度内的原始像素数据，保持完整的视觉保真度。
Markov Decision Process (MDP) Formulation – 代理的状态是当前单元格；动作包括“放大”“缩小”或“保持”。奖励与代理的答案与真实标注的匹配程度挂钩。
Recursive Language Model (RLM) – 一种 transformer‑style 模型，能够在子问题上自我调用。Master RLM 决定要探索的高层单元格，而 Worker RLM 则并行处理选中的子单元格，每个返回视觉证据。
Caching & Reuse – 由于许多查询共享重叠的单元格，单元格的计算嵌入会被缓存。后续的 worker 可以即时检索，从而实现文中所述的 30‑60 % 缓存命中率提升。
Budget Control – 对递归深度（即“环境预算”）设定硬性上限，限制访问的单元格总数，为开发者提供一个单一的调节旋钮，以在延迟和答案质量之间取得平衡。

Source: …

基准（时长）	基线（线性计算）	Video‑RLM（对数计算）	准确率 Δ
1 hour	1× compute	0.9× compute	–0.2 %
5 hours	5× compute	1.3× compute	–0.5 %
10 hours	10× compute	1.7× compute	–0.8 %

计算增长： 随着视频时长增加十倍，Video‑RLM 的计算量仅增长约 1.8 倍，验证了对数缩放。
缓存效果： 在所有运行中，30‑60 % 的单元嵌入是从缓存中检索的，进一步降低了延迟。
深度预算： 将递归深度限制在 4 层，使每次查询的延迟保持在 2 秒以下，同时准确率损失 <1 %，展示了计算‑准确率的清晰权衡。
自适应行为： 对于高层次的 “整体发生了什么？” 问题，Master 保持在浅层；对于 “第 X 帧在第 42 分钟时有什么对象？” 的问题，Workers 会深入到最细网格，自动在需要的地方分配更多计算资源。

VideoAtlas 为实现真正可扩展的无损视频理解开辟了有前景的道路——将数小时的影像转化为可导航的地图，使语言模型能够以最小的计算开销进行探索。