[Paper] WeaveTime:将早期帧流入 VideoLLMs 的涌现记忆
发布: (2026年2月26日 GMT+8 01:45)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.22142v1
Overview
论文 WeaveTime 解决了当今 Video‑LLM 的一个根本盲点:它们把视频视为静态的帧集合,而不是流动的、按时间顺序排列的序列。这种“时间无关”的视角使模型难以推理因果关系、按正确顺序跟踪事件,或将当前帧与过去上下文区分开来——这些问题在处理实时视频流时尤为关键。WeaveTime 引入了一种轻量级、模型无关的插件,使 Video‑LLM 能够感知并利用时间顺序,且无需重新设计底层架构或依赖大规模流媒体数据集。
关键贡献
- Temporal Reconstruction Objective – 一种简单的“Streaming Order Perception”(SOP)损失,使模型能够重建帧的正确时间顺序,仅通过少量微调步骤即可注入时间感知。
- Past‑Current Dynamic Focus Cache – 一种推理时机制,仅在模型不确定性激增时动态扩展历史窗口,实现从粗到细的过去帧检索。
- Model‑agnostic Plug‑and‑Play Design – WeaveTime 可与任何现成的 Video‑LLM(如 Flamingo‑Video、Video‑ChatGPT)配合使用,无需架构修改,便于在现有流水线中直接采用。
- Efficiency Gains – 通过仅在必要时扩展历史,系统降低了延迟和 GPU 内存占用,同时提升了流式任务的准确性。
- Empirical Validation – 在多个流式基准(如 LiveQA、Streaming VQA)上实现了持续的性能提升,且相较于基线 Video‑LLM 推理时间更低。
方法论
-
Teach Order(训练阶段)
- 作者冻结原始 Video‑LLM 权重,并添加一个轻量级时间头。
- 使用 Temporal Reconstruction 损失,模型接收一个被打乱的帧小批量,并必须预测它们的原始时间戳或重建正确的顺序。
- 该目标在标准视频数据集上应用(不需要特殊的流媒体数据),因此模型在保持视觉语言知识的同时学习 order‑aware(顺序感知)嵌入。
-
Use Order(推理阶段)
- 一个 Past‑Current Dynamic Focus Cache 位于冻结的 Video‑LLM 前端。
- 对于每个输入帧,缓存首先运行快速不确定性估计器(例如语言解码器的熵)。
- 如果不确定性低,模型仅使用当前帧进行回答(快速路径)。
- 如果不确定性超过阈值,缓存会拉取少量策略性选择的过去帧(粗到细),并重新运行语言生成,使模型仅在需要时整合相关历史。
整个管道仅增加 < 5 % 的额外参数,并且可以通过一行代码嵌入到任何现有的 Video‑LLM 部署中。
结果与发现
| 基准 | 基线 Video‑LLM | + WeaveTime | 延迟 Δ |
|---|---|---|---|
| LiveQA(流式 VQA) | 62.4 % accuracy | 68.9 % | –12 % |
| Streaming VQA(时序推理) | 58.1 % | 64.7 % | –9 % |
| Real‑time Captioning | 71.3 % BLEU‑4 | 75.5 % | –7 % |
- 准确率提升:在需要时序推理的任务上绝对提升 5–7 %。
- 延迟降低:动态缓存将平均推理时间降低约 10 %,因为许多帧在快速路径中得到回答。
- 内存节省:任意时刻仅在 GPU 内存中保留少量过去的帧,从而能够在边缘 GPU(例如 RTX 3060)上部署。
实际意义
- Live video assistants(例如实时体育解说、监控监测)现在可以在不缓存整个视频流的情况下回答“刚刚发生了什么?”的问题。
- AR/VR pipelines 需要低延迟场景理解时,可以集成 WeaveTime,在保持当前视图清晰的同时仍能推理近期动作。
- Edge deployment 变得可行:开发者可以在普通 GPU 上运行标准 Video‑LLM,并添加 WeaveTime 以满足严格的延迟预算。
- Developer workflow 得到简化——无需收集海量流媒体数据集或重新设计模型架构;只需少量 epoch 的 SOP finetuning 和一个插件缓存即可。
- Open‑source release(code + weights)意味着团队可以快速基准测试并将该技术适配到特定领域的视频流(例如医学内镜、工业检测)。
限制与未来工作
- 时间范围:缓存目前仅向过去扩展几秒;非常长程的依赖(例如,持续数分钟的叙事)仍可能被遗漏。
- 不确定性启发式:触发阈值是手动调节的;更自适应、学习得到的策略可以进一步减少不必要的历史拉取。
- 评估范围:基准测试聚焦于英语任务;多语言或多模态(音视频)流式场景仍未被探索。
- 作者提出的未来方向包括:用于多尺度时间推理的层次缓存、整合音频线索以获得更丰富的上下文,以及将不确定性估计器与 SOP 头部共同训练,实现端到端优化。
作者
- Yulin Zhang
- Cheng Shi
- Sibei Yang
论文信息
- arXiv ID: 2602.22142v1
- 类别: cs.CV
- 出版时间: 2026年2月25日
- PDF: 下载 PDF