[Paper] OmniSIFT:面向高效全模态大型语言模型的模态不对称令牌压缩

发布: (2026年2月5日 GMT+8 01:51)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.04804v1

Overview

OmniSIFT 解决了全模态大型语言模型(LLMs)中的一个最大瓶颈:由视频和音频令牌的长序列导致的巨大的计算成本。通过智能地裁剪冗余的视觉帧并过滤不相关的音频片段,该方法将令牌长度削减至原来的约四分之一,同时实际上 提升 了多个基准上的下游性能。

关键贡献

  • 模态不对称压缩:为视频(时空剪枝)和音频(视觉引导选择)分别提供专门的管道。
  • 两阶段、端到端可训练框架:可微分的直通估计器使压缩模块能够与 Omni‑LLM 联合学习。
  • 极小开销:仅约 4.85 M 额外参数(≈0.07 % 的 7 B 模型),且延迟低于现有的免训练基线如 OmniZip。
  • 显著的实证提升:在仅使用原始 token 数量 25 % 的情况下,OmniSIFT 超越所有先前的压缩方法,甚至在多个音视频理解任务上超过全 token 基线。
  • 广泛评估:在涵盖视频 QA、音视频推理和多模态字幕的五个多样化基准上完成验证。

方法论

  1. 时空视频剪枝

    • 帧内:轻量级 CNN 预测帧内哪些补丁包含有用信息(例如,运动物体、显著区域)。
    • 帧间:时间相似度评分器识别近似重复的帧(例如,静态背景),并将其丢弃。
    • 将两种信号融合,生成二进制掩码,在视觉令牌进入语言模型之前剔除冗余视觉令牌。
  2. 视觉引导的音频选择

    • 剪枝后的视频表示被用作“引导”,对原始音频令牌流进行注意。
    • 与视觉线索对齐不佳的音频片段(例如,背景噪声、静默间隔)会得到低分并被移除。
  3. 可微分压缩

    • 两个剪枝模块输出硬二进制决策,但直通估计器在反向传播时将其视为连续值,使梯度能够从下游语言模型的损失中传递。
    • 整个流水线(剪枝 + LLM)联合训练,使压缩器准确学习语言模型在每个任务中所需的内容。

结果与发现

Model (tokens)Latency ↓Avg. Score ↑Notable Gains
Qwen2.5‑Omni‑7B (full)baseline73.2
OmniZip (training‑free)+12 %71.8
OmniSIFT (25 % tokens)‑8 %74.5Beats full‑token model on VideoQA‑X and AVE‑Bench
  • 参数效率:仅额外 4.85 M 参数,内存影响可忽略。
  • 鲁棒性:在不同模态平衡的任务(例如音频占主导 vs 视频占主导)上性能保持。
  • 消融实验:去除帧内或帧间组件会导致准确率下降约 1.3 %;禁用视觉引导的音频选择会使音频中心评分下降约 2 %。

实际意义

  • 实时应用的更快推理:流媒体视频助手、实时字幕或 AR/VR 体验现在可以在边缘 GPU 或甚至高端移动设备上运行 Omni‑LLMs,而不牺牲质量。
  • 成本效益的扩展:云服务提供商可以在每个 GPU 上服务更多并发用户,因为 token 长度——从而计算量——显著下降。
  • 简化的数据管道:开发者可以直接输入原始视频/音频流;OmniSIFT 自动处理冗余去除,减少对手工预处理的需求。
  • 节能:更少的 token 意味着更低的 FLOPs,符合大规模 AI 部署的可持续发展目标。

限制与未来工作

  • 领域敏感性:剪枝启发式在训练数据上学习;高度专业化的领域(例如医学影像)可能需要微调或自定义掩码。
  • 仅音频场景:当视觉线索缺失或极少时,视觉引导的音频选择器的收益有限,这表明需要补充的以音频为中心的压缩器。
  • 向更大规模语言模型的可扩展性:实验聚焦于 7 B 模型;将该方法扩展到 70 B 规模的 Omni‑LLM 可能会暴露出掩码生成延迟的新瓶颈。
  • 未来方向:探索每种模态的自适应 token 预算,将从下游任务信号中学习的多模态 token 重要性整合进去,并在更长形式的内容上进行测试(例如完整电影)。

作者

  • Yue Ding
  • Yiyan Ji
  • Jungang Li
  • Xuyang Liu
  • Xinlong Chen
  • Junfei Wu
  • Bozhou Li
  • Bohan Zeng
  • Yang Shi
  • Yushuo Guan
  • Yuanxing Zhang
  • Jiaheng Liu
  • Qiang Liu
  • Pengfei Wan
  • Liang Wang

论文信息

  • arXiv ID: 2602.04804v1
  • 类别: cs.CL
  • 出版日期: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »