[Paper] CoPE-VideoLM:用于高效视频语言模型的 Codec 原语
发布: (2026年2月14日 GMT+8 02:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.13191v1
概述
论文 CoPE‑VideoLM 提出了一种将视频数据输入大型语言模型的新方法,利用视频编解码器的原生构件——运动矢量和残差,而不是将每一帧都处理为全分辨率图像。这大幅降低了计算成本,同时在保持性能的情况下,许多情况下还能提升在广泛视频理解任务上的表现。
关键贡献
- 以编解码器为中心的表示: 利用标准视频编解码器的运动矢量和残差作为轻量级“标记”,用于非关键帧,避免昂贵的全帧编码。
- 混合编码器架构: 将一个小型 Transformer(摄取编解码器原语)与传统图像编码器(用于关键帧)相结合,并通过专门的预训练阶段对齐它们的潜在空间。
- 效率提升: 与传统 VideoLM 流程相比,实现了最高 86 % 的首次标记时间缩减 和 93 % 的标记数量减少。
- 性能持平或提升: 在 14 项视频理解基准(涵盖 QA、时间推理、长篇理解和空间场景分析)上匹配或超越最先进的结果。
- 可扩展的密度控制: 允许开发者在关键帧频率与编解码器原语密度之间进行权衡,以根据特定应用需求定制计算预算。
方法论
- 关键帧选择: 仍然以较低帧率(例如 1‑2 fps)处理少量帧,使用全图像编码器(ViT‑style)捕获高级视觉语义。
- 编解码原语提取: 对每个中间帧,解析视频压缩比特流以获取 运动矢量(表示像素位移)和 残差(运动补偿后的差异)。这些已经高度稀疏,能够高效编码时间变化。
- 编解码原语编码器: 轻量级 Transformer 接收运动矢量和残差 token,生成紧凑的时间表示。
- 跨模态对齐预训练: 首先在大规模未标注视频语料上训练,使编解码原语嵌入与图像编码器嵌入对齐,从而加速后续微调。
- 端到端微调: 将组合编码器的输出送入标准语言模型(例如基于 LLaMA 的模型),在下游视频‑语言任务上进行训练。
整个流程可视化为:
Video → Codec (keyframes + motion/residuals) → Hybrid Encoder → LLM → Text Output
结果与发现
| Metric | Baseline VideoLM | CoPE‑VideoLM (best config) |
|---|---|---|
| Token count per second of video | 1,200 | 84 |
| Time‑to‑first‑token (ms) | 420 | 58 |
| Average accuracy on VQA‑style benchmarks | 71.3 % | 71.8 % |
| Temporal reasoning (NExT‑QA) | 58.2 % | 59.5 % |
| Long‑form video QA (HowToVQA) | 45.1 % | 45.6 % |
- 效率: 令牌数量的减少直接转化为更低的 GPU 显存占用和更快的推理速度,使实时或端侧部署成为可能。
- 对密度变化的鲁棒性: 即使关键帧频率减半,模型仍能保留 > 95 % 的原始性能,这得益于丰富的运动向量信号。
- 泛化能力: 同一预训练编码器可在烹饪视频、体育集锦、教学片段等多种领域中使用,无需针对特定任务重新设计。
Practical Implications
- 成本效益高的视频 AI 服务: 云服务商可以在相同硬件预算下处理更多并发的视频‑LLM 请求,从而降低每小时的推理成本。
- 边缘和移动端部署: 轻量级的 codec‑primitive 编码器能够适配现代智能手机和 AR 眼镜的内存限制,实现设备端的视频理解(例如实时字幕、活动检测)。
- 简化的数据流水线: 由于该方法复用已有的编解码输出,开发者可以省去昂贵的帧提取和图像标记化步骤,直接与流媒体流水线(如 WebRTC、RTMP)集成。
- 可定制的延迟‑精度权衡: 通过调整关键帧间隔或选择部分运动矢量,产品团队可以在交互式应用(如视频聊天助手或实时体育分析)中微调响应速度与理解深度之间的平衡。
限制与未来工作
- 编解码器依赖性: 该方法假设可以访问视频的压缩比特流;原始帧工作流(例如来自未编码的摄像头)需要额外的编码步骤。
- 细粒度视觉细节的丢失: 虽然运动矢量能够很好地捕捉运动,但未在残差中体现的细微纹理变化可能会被遗漏,这可能影响依赖细致视觉线索的任务(例如面部表情分析)。
- 对非主流编解码器的泛化: 本文聚焦于 H.264/H.265;扩展到更新或专有的编解码器可能需要额外的工程工作。
- 未来方向: 作者建议探索学习型压缩原语、基于场景动态的自适应关键帧选择,以及与能够同时处理音频和文本的多模态大语言模型更紧密的集成。
作者
- Sayan Deb Sarkar
- Rémi Pautrat
- Ondrej Miksik
- Marc Pollefeys
- Iro Armeni
- Mahdi Rad
- Mihai Dusmanu
论文信息
- arXiv ID: 2602.13191v1
- 类别: cs.CV, cs.AI, cs.CL
- 出版时间: 2026年2月13日
- PDF: 下载 PDF