[Paper] CoPE-VideoLM:用于高效视频语言模型的 Codec 原语

发布: (2026年2月14日 GMT+8 02:57)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13191v1

概述

论文 CoPE‑VideoLM 提出了一种将视频数据输入大型语言模型的新方法,利用视频编解码器的原生构件——运动矢量和残差,而不是将每一帧都处理为全分辨率图像。这大幅降低了计算成本,同时在保持性能的情况下,许多情况下还能提升在广泛视频理解任务上的表现。

关键贡献

  • 以编解码器为中心的表示: 利用标准视频编解码器的运动矢量和残差作为轻量级“标记”,用于非关键帧,避免昂贵的全帧编码。
  • 混合编码器架构: 将一个小型 Transformer(摄取编解码器原语)与传统图像编码器(用于关键帧)相结合,并通过专门的预训练阶段对齐它们的潜在空间。
  • 效率提升: 与传统 VideoLM 流程相比,实现了最高 86 % 的首次标记时间缩减93 % 的标记数量减少
  • 性能持平或提升:14 项视频理解基准(涵盖 QA、时间推理、长篇理解和空间场景分析)上匹配或超越最先进的结果。
  • 可扩展的密度控制: 允许开发者在关键帧频率与编解码器原语密度之间进行权衡,以根据特定应用需求定制计算预算。

方法论

  1. 关键帧选择: 仍然以较低帧率(例如 1‑2 fps)处理少量帧,使用全图像编码器(ViT‑style)捕获高级视觉语义。
  2. 编解码原语提取: 对每个中间帧,解析视频压缩比特流以获取 运动矢量(表示像素位移)和 残差(运动补偿后的差异)。这些已经高度稀疏,能够高效编码时间变化。
  3. 编解码原语编码器: 轻量级 Transformer 接收运动矢量和残差 token,生成紧凑的时间表示。
  4. 跨模态对齐预训练: 首先在大规模未标注视频语料上训练,使编解码原语嵌入与图像编码器嵌入对齐,从而加速后续微调。
  5. 端到端微调: 将组合编码器的输出送入标准语言模型(例如基于 LLaMA 的模型),在下游视频‑语言任务上进行训练。

整个流程可视化为:

Video → Codec (keyframes + motion/residuals) → Hybrid Encoder → LLM → Text Output

结果与发现

MetricBaseline VideoLMCoPE‑VideoLM (best config)
Token count per second of video1,20084
Time‑to‑first‑token (ms)42058
Average accuracy on VQA‑style benchmarks71.3 %71.8 %
Temporal reasoning (NExT‑QA)58.2 %59.5 %
Long‑form video QA (HowToVQA)45.1 %45.6 %
  • 效率: 令牌数量的减少直接转化为更低的 GPU 显存占用和更快的推理速度,使实时或端侧部署成为可能。
  • 对密度变化的鲁棒性: 即使关键帧频率减半,模型仍能保留 > 95 % 的原始性能,这得益于丰富的运动向量信号。
  • 泛化能力: 同一预训练编码器可在烹饪视频、体育集锦、教学片段等多种领域中使用,无需针对特定任务重新设计。

Practical Implications

  • 成本效益高的视频 AI 服务: 云服务商可以在相同硬件预算下处理更多并发的视频‑LLM 请求,从而降低每小时的推理成本。
  • 边缘和移动端部署: 轻量级的 codec‑primitive 编码器能够适配现代智能手机和 AR 眼镜的内存限制,实现设备端的视频理解(例如实时字幕、活动检测)。
  • 简化的数据流水线: 由于该方法复用已有的编解码输出,开发者可以省去昂贵的帧提取和图像标记化步骤,直接与流媒体流水线(如 WebRTC、RTMP)集成。
  • 可定制的延迟‑精度权衡: 通过调整关键帧间隔或选择部分运动矢量,产品团队可以在交互式应用(如视频聊天助手或实时体育分析)中微调响应速度与理解深度之间的平衡。

限制与未来工作

  • 编解码器依赖性: 该方法假设可以访问视频的压缩比特流;原始帧工作流(例如来自未编码的摄像头)需要额外的编码步骤。
  • 细粒度视觉细节的丢失: 虽然运动矢量能够很好地捕捉运动,但未在残差中体现的细微纹理变化可能会被遗漏,这可能影响依赖细致视觉线索的任务(例如面部表情分析)。
  • 对非主流编解码器的泛化: 本文聚焦于 H.264/H.265;扩展到更新或专有的编解码器可能需要额外的工程工作。
  • 未来方向: 作者建议探索学习型压缩原语、基于场景动态的自适应关键帧选择,以及与能够同时处理音频和文本的多模态大语言模型更紧密的集成。

作者

  • Sayan Deb Sarkar
  • Rémi Pautrat
  • Ondrej Miksik
  • Marc Pollefeys
  • Iro Armeni
  • Mahdi Rad
  • Mihai Dusmanu

论文信息

  • arXiv ID: 2602.13191v1
  • 类别: cs.CV, cs.AI, cs.CL
  • 出版时间: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »