[Paper] WeaveTime：将早期帧流入 VideoLLMs 的涌现记忆

发布: 3天前 (2026年2月26日 GMT+8 01:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.22142v1

Overview

论文 WeaveTime 解决了当今 Video‑LLM 的一个根本盲点：它们把视频视为静态的帧集合，而不是流动的、按时间顺序排列的序列。这种“时间无关”的视角使模型难以推理因果关系、按正确顺序跟踪事件，或将当前帧与过去上下文区分开来——这些问题在处理实时视频流时尤为关键。WeaveTime 引入了一种轻量级、模型无关的插件，使 Video‑LLM 能够感知并利用时间顺序，且无需重新设计底层架构或依赖大规模流媒体数据集。

关键贡献

Temporal Reconstruction Objective – 一种简单的“Streaming Order Perception”（SOP）损失，使模型能够重建帧的正确时间顺序，仅通过少量微调步骤即可注入时间感知。
Past‑Current Dynamic Focus Cache – 一种推理时机制，仅在模型不确定性激增时动态扩展历史窗口，实现从粗到细的过去帧检索。
Model‑agnostic Plug‑and‑Play Design – WeaveTime 可与任何现成的 Video‑LLM（如 Flamingo‑Video、Video‑ChatGPT）配合使用，无需架构修改，便于在现有流水线中直接采用。
Efficiency Gains – 通过仅在必要时扩展历史，系统降低了延迟和 GPU 内存占用，同时提升了流式任务的准确性。
Empirical Validation – 在多个流式基准（如 LiveQA、Streaming VQA）上实现了持续的性能提升，且相较于基线 Video‑LLM 推理时间更低。

方法论

Teach Order（训练阶段）
- 作者冻结原始 Video‑LLM 权重，并添加一个轻量级时间头。
- 使用 Temporal Reconstruction 损失，模型接收一个被打乱的帧小批量，并必须预测它们的原始时间戳或重建正确的顺序。
- 该目标在标准视频数据集上应用（不需要特殊的流媒体数据），因此模型在保持视觉语言知识的同时学习 order‑aware（顺序感知）嵌入。
Use Order（推理阶段）
- 一个 Past‑Current Dynamic Focus Cache 位于冻结的 Video‑LLM 前端。
- 对于每个输入帧，缓存首先运行快速不确定性估计器（例如语言解码器的熵）。
- 如果不确定性低，模型仅使用当前帧进行回答（快速路径）。
- 如果不确定性超过阈值，缓存会拉取少量策略性选择的过去帧（粗到细），并重新运行语言生成，使模型仅在需要时整合相关历史。

整个管道仅增加 < 5 % 的额外参数，并且可以通过一行代码嵌入到任何现有的 Video‑LLM 部署中。

结果与发现

基准	基线 Video‑LLM	+ WeaveTime	延迟 Δ
LiveQA（流式 VQA）	62.4 % accuracy	68.9 %	–12 %
Streaming VQA（时序推理）	58.1 %	64.7 %	–9 %
Real‑time Captioning	71.3 % BLEU‑4	75.5 %	–7 %

准确率提升：在需要时序推理的任务上绝对提升 5–7 %。
延迟降低：动态缓存将平均推理时间降低约 10 %，因为许多帧在快速路径中得到回答。
内存节省：任意时刻仅在 GPU 内存中保留少量过去的帧，从而能够在边缘 GPU（例如 RTX 3060）上部署。

实际意义

Live video assistants（例如实时体育解说、监控监测）现在可以在不缓存整个视频流的情况下回答“刚刚发生了什么？”的问题。
AR/VR pipelines 需要低延迟场景理解时，可以集成 WeaveTime，在保持当前视图清晰的同时仍能推理近期动作。
Edge deployment 变得可行：开发者可以在普通 GPU 上运行标准 Video‑LLM，并添加 WeaveTime 以满足严格的延迟预算。
Developer workflow 得到简化——无需收集海量流媒体数据集或重新设计模型架构；只需少量 epoch 的 SOP finetuning 和一个插件缓存即可。
Open‑source release（code + weights）意味着团队可以快速基准测试并将该技术适配到特定领域的视频流（例如医学内镜、工业检测）。

限制与未来工作

时间范围：缓存目前仅向过去扩展几秒；非常长程的依赖（例如，持续数分钟的叙事）仍可能被遗漏。
不确定性启发式：触发阈值是手动调节的；更自适应、学习得到的策略可以进一步减少不必要的历史拉取。
评估范围：基准测试聚焦于英语任务；多语言或多模态（音视频）流式场景仍未被探索。
作者提出的未来方向包括：用于多尺度时间推理的层次缓存、整合音频线索以获得更丰富的上下文，以及将不确定性估计器与 SOP 头部共同训练，实现端到端优化。

作者

Yulin Zhang
Cheng Shi
Sibei Yang

论文信息

arXiv ID: 2602.22142v1
类别: cs.CV
出版时间: 2026年2月25日
PDF: 下载 PDF

[Paper] WeaveTime：将早期帧流入 VideoLLMs 的涌现记忆

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] MediX-R1: 开放式医学强化学习

[Paper] VGG-T³：离线前馈式大规模3D重建

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练