[Paper] OmniSIFT:面向高效全模态大型语言模型的模态不对称令牌压缩
发布: (2026年2月5日 GMT+8 01:51)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.04804v1
Overview
OmniSIFT 解决了全模态大型语言模型(LLMs)中的一个最大瓶颈:由视频和音频令牌的长序列导致的巨大的计算成本。通过智能地裁剪冗余的视觉帧并过滤不相关的音频片段,该方法将令牌长度削减至原来的约四分之一,同时实际上 提升 了多个基准上的下游性能。
关键贡献
- 模态不对称压缩:为视频(时空剪枝)和音频(视觉引导选择)分别提供专门的管道。
- 两阶段、端到端可训练框架:可微分的直通估计器使压缩模块能够与 Omni‑LLM 联合学习。
- 极小开销:仅约 4.85 M 额外参数(≈0.07 % 的 7 B 模型),且延迟低于现有的免训练基线如 OmniZip。
- 显著的实证提升:在仅使用原始 token 数量 25 % 的情况下,OmniSIFT 超越所有先前的压缩方法,甚至在多个音视频理解任务上超过全 token 基线。
- 广泛评估:在涵盖视频 QA、音视频推理和多模态字幕的五个多样化基准上完成验证。
方法论
-
时空视频剪枝
- 帧内:轻量级 CNN 预测帧内哪些补丁包含有用信息(例如,运动物体、显著区域)。
- 帧间:时间相似度评分器识别近似重复的帧(例如,静态背景),并将其丢弃。
- 将两种信号融合,生成二进制掩码,在视觉令牌进入语言模型之前剔除冗余视觉令牌。
-
视觉引导的音频选择
- 剪枝后的视频表示被用作“引导”,对原始音频令牌流进行注意。
- 与视觉线索对齐不佳的音频片段(例如,背景噪声、静默间隔)会得到低分并被移除。
-
可微分压缩
- 两个剪枝模块输出硬二进制决策,但直通估计器在反向传播时将其视为连续值,使梯度能够从下游语言模型的损失中传递。
- 整个流水线(剪枝 + LLM)联合训练,使压缩器准确学习语言模型在每个任务中所需的内容。
结果与发现
| Model (tokens) | Latency ↓ | Avg. Score ↑ | Notable Gains |
|---|---|---|---|
| Qwen2.5‑Omni‑7B (full) | baseline | 73.2 | – |
| OmniZip (training‑free) | +12 % | 71.8 | – |
| OmniSIFT (25 % tokens) | ‑8 % | 74.5 | Beats full‑token model on VideoQA‑X and AVE‑Bench |
- 参数效率:仅额外 4.85 M 参数,内存影响可忽略。
- 鲁棒性:在不同模态平衡的任务(例如音频占主导 vs 视频占主导)上性能保持。
- 消融实验:去除帧内或帧间组件会导致准确率下降约 1.3 %;禁用视觉引导的音频选择会使音频中心评分下降约 2 %。
实际意义
- 实时应用的更快推理:流媒体视频助手、实时字幕或 AR/VR 体验现在可以在边缘 GPU 或甚至高端移动设备上运行 Omni‑LLMs,而不牺牲质量。
- 成本效益的扩展:云服务提供商可以在每个 GPU 上服务更多并发用户,因为 token 长度——从而计算量——显著下降。
- 简化的数据管道:开发者可以直接输入原始视频/音频流;OmniSIFT 自动处理冗余去除,减少对手工预处理的需求。
- 节能:更少的 token 意味着更低的 FLOPs,符合大规模 AI 部署的可持续发展目标。
限制与未来工作
- 领域敏感性:剪枝启发式在训练数据上学习;高度专业化的领域(例如医学影像)可能需要微调或自定义掩码。
- 仅音频场景:当视觉线索缺失或极少时,视觉引导的音频选择器的收益有限,这表明需要补充的以音频为中心的压缩器。
- 向更大规模语言模型的可扩展性:实验聚焦于 7 B 模型;将该方法扩展到 70 B 规模的 Omni‑LLM 可能会暴露出掩码生成延迟的新瓶颈。
- 未来方向:探索每种模态的自适应 token 预算,将从下游任务信号中学习的多模态 token 重要性整合进去,并在更长形式的内容上进行测试(例如完整电影)。
作者
- Yue Ding
- Yiyan Ji
- Jungang Li
- Xuyang Liu
- Xinlong Chen
- Junfei Wu
- Bozhou Li
- Bohan Zeng
- Yang Shi
- Yushuo Guan
- Yuanxing Zhang
- Jiaheng Liu
- Qiang Liu
- Pengfei Wan
- Liang Wang
论文信息
- arXiv ID: 2602.04804v1
- 类别: cs.CL
- 出版日期: 2026年2月4日
- PDF: 下载 PDF