[Paper] WeaveTime:将早期帧流入 VideoLLMs 的涌现记忆

发布: (2026年2月26日 GMT+8 01:45)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.22142v1

Overview

论文 WeaveTime 解决了当今 Video‑LLM 的一个根本盲点:它们把视频视为静态的帧集合,而不是流动的、按时间顺序排列的序列。这种“时间无关”的视角使模型难以推理因果关系、按正确顺序跟踪事件,或将当前帧与过去上下文区分开来——这些问题在处理实时视频流时尤为关键。WeaveTime 引入了一种轻量级、模型无关的插件,使 Video‑LLM 能够感知利用时间顺序,且无需重新设计底层架构或依赖大规模流媒体数据集。

关键贡献

  • Temporal Reconstruction Objective – 一种简单的“Streaming Order Perception”(SOP)损失,使模型能够重建帧的正确时间顺序,仅通过少量微调步骤即可注入时间感知。
  • Past‑Current Dynamic Focus Cache – 一种推理时机制,仅在模型不确定性激增时动态扩展历史窗口,实现从粗到细的过去帧检索。
  • Model‑agnostic Plug‑and‑Play Design – WeaveTime 可与任何现成的 Video‑LLM(如 Flamingo‑Video、Video‑ChatGPT)配合使用,无需架构修改,便于在现有流水线中直接采用。
  • Efficiency Gains – 通过仅在必要时扩展历史,系统降低了延迟和 GPU 内存占用,同时提升了流式任务的准确性。
  • Empirical Validation – 在多个流式基准(如 LiveQA、Streaming VQA)上实现了持续的性能提升,且相较于基线 Video‑LLM 推理时间更低。

方法论

  1. Teach Order(训练阶段)

    • 作者冻结原始 Video‑LLM 权重,并添加一个轻量级时间头。
    • 使用 Temporal Reconstruction 损失,模型接收一个被打乱的帧小批量,并必须预测它们的原始时间戳或重建正确的顺序。
    • 该目标在标准视频数据集上应用(不需要特殊的流媒体数据),因此模型在保持视觉语言知识的同时学习 order‑aware(顺序感知)嵌入。
  2. Use Order(推理阶段)

    • 一个 Past‑Current Dynamic Focus Cache 位于冻结的 Video‑LLM 前端。
    • 对于每个输入帧,缓存首先运行快速不确定性估计器(例如语言解码器的熵)。
    • 如果不确定性低,模型仅使用当前帧进行回答(快速路径)。
    • 如果不确定性超过阈值,缓存会拉取少量策略性选择的过去帧(粗到细),并重新运行语言生成,使模型仅在需要时整合相关历史。

整个管道仅增加 < 5 % 的额外参数,并且可以通过一行代码嵌入到任何现有的 Video‑LLM 部署中。

结果与发现

基准基线 Video‑LLM+ WeaveTime延迟 Δ
LiveQA(流式 VQA)62.4 % accuracy68.9 %–12 %
Streaming VQA(时序推理)58.1 %64.7 %–9 %
Real‑time Captioning71.3 % BLEU‑475.5 %–7 %
  • 准确率提升:在需要时序推理的任务上绝对提升 5–7 %。
  • 延迟降低:动态缓存将平均推理时间降低约 10 %,因为许多帧在快速路径中得到回答。
  • 内存节省:任意时刻仅在 GPU 内存中保留少量过去的帧,从而能够在边缘 GPU(例如 RTX 3060)上部署。

实际意义

  • Live video assistants(例如实时体育解说、监控监测)现在可以在不缓存整个视频流的情况下回答“刚刚发生了什么?”的问题。
  • AR/VR pipelines 需要低延迟场景理解时,可以集成 WeaveTime,在保持当前视图清晰的同时仍能推理近期动作。
  • Edge deployment 变得可行:开发者可以在普通 GPU 上运行标准 Video‑LLM,并添加 WeaveTime 以满足严格的延迟预算。
  • Developer workflow 得到简化——无需收集海量流媒体数据集或重新设计模型架构;只需少量 epoch 的 SOP finetuning 和一个插件缓存即可。
  • Open‑source release(code + weights)意味着团队可以快速基准测试并将该技术适配到特定领域的视频流(例如医学内镜、工业检测)。

限制与未来工作

  • 时间范围:缓存目前仅向过去扩展几秒;非常长程的依赖(例如,持续数分钟的叙事)仍可能被遗漏。
  • 不确定性启发式:触发阈值是手动调节的;更自适应、学习得到的策略可以进一步减少不必要的历史拉取。
  • 评估范围:基准测试聚焦于英语任务;多语言或多模态(音视频)流式场景仍未被探索。
  • 作者提出的未来方向包括:用于多尺度时间推理的层次缓存、整合音频线索以获得更丰富的上下文,以及将不确定性估计器与 SOP 头部共同训练,实现端到端优化。

作者

  • Yulin Zhang
  • Cheng Shi
  • Sibei Yang

论文信息

  • arXiv ID: 2602.22142v1
  • 类别: cs.CV
  • 出版时间: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »