[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

发布: 3天前 (2026年2月14日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13191v1

概述

论文 CoPE‑VideoLM 提出了一种将视频数据输入大型语言模型的新方法，利用视频编解码器的原生构件——运动矢量和残差，而不是将每一帧都处理为全分辨率图像。这大幅降低了计算成本，同时在保持性能的情况下，许多情况下还能提升在广泛视频理解任务上的表现。

以编解码器为中心的表示: 利用标准视频编解码器的运动矢量和残差作为轻量级“标记”，用于非关键帧，避免昂贵的全帧编码。
混合编码器架构: 将一个小型 Transformer（摄取编解码器原语）与传统图像编码器（用于关键帧）相结合，并通过专门的预训练阶段对齐它们的潜在空间。
效率提升: 与传统 VideoLM 流程相比，实现了最高 86 % 的首次标记时间缩减 和 93 % 的标记数量减少。
性能持平或提升: 在 14 项视频理解基准（涵盖 QA、时间推理、长篇理解和空间场景分析）上匹配或超越最先进的结果。
可扩展的密度控制: 允许开发者在关键帧频率与编解码器原语密度之间进行权衡，以根据特定应用需求定制计算预算。

关键帧选择: 仍然以较低帧率（例如 1‑2 fps）处理少量帧，使用全图像编码器（ViT‑style）捕获高级视觉语义。
编解码原语提取: 对每个中间帧，解析视频压缩比特流以获取 运动矢量（表示像素位移）和残差（运动补偿后的差异）。这些已经高度稀疏，能够高效编码时间变化。
编解码原语编码器: 轻量级 Transformer 接收运动矢量和残差 token，生成紧凑的时间表示。
跨模态对齐预训练: 首先在大规模未标注视频语料上训练，使编解码原语嵌入与图像编码器嵌入对齐，从而加速后续微调。
端到端微调: 将组合编码器的输出送入标准语言模型（例如基于 LLaMA 的模型），在下游视频‑语言任务上进行训练。

整个流程可视化为：

Video → Codec (keyframes + motion/residuals) → Hybrid Encoder → LLM → Text Output

Metric	Baseline VideoLM	CoPE‑VideoLM (best config)
Token count per second of video	1,200	84
Time‑to‑first‑token (ms)	420	58
Average accuracy on VQA‑style benchmarks	71.3 %	71.8 %
Temporal reasoning (NExT‑QA)	58.2 %	59.5 %
Long‑form video QA (HowToVQA)	45.1 %	45.6 %

成本效益高的视频 AI 服务： 云服务商可以在相同硬件预算下处理更多并发的视频‑LLM 请求，从而降低每小时的推理成本。
边缘和移动端部署： 轻量级的 codec‑primitive 编码器能够适配现代智能手机和 AR 眼镜的内存限制，实现设备端的视频理解（例如实时字幕、活动检测）。
简化的数据流水线： 由于该方法复用已有的编解码输出，开发者可以省去昂贵的帧提取和图像标记化步骤，直接与流媒体流水线（如 WebRTC、RTMP）集成。
可定制的延迟‑精度权衡： 通过调整关键帧间隔或选择部分运动矢量，产品团队可以在交互式应用（如视频聊天助手或实时体育分析）中微调响应速度与理解深度之间的平衡。

编解码器依赖性： 该方法假设可以访问视频的压缩比特流；原始帧工作流（例如来自未编码的摄像头）需要额外的编码步骤。
细粒度视觉细节的丢失： 虽然运动矢量能够很好地捕捉运动，但未在残差中体现的细微纹理变化可能会被遗漏，这可能影响依赖细致视觉线索的任务（例如面部表情分析）。
对非主流编解码器的泛化： 本文聚焦于 H.264/H.265；扩展到更新或专有的编解码器可能需要额外的工程工作。
未来方向： 作者建议探索学习型压缩原语、基于场景动态的自适应关键帧选择，以及与能够同时处理音频和文本的多模态大语言模型更紧密的集成。