[Paper] OmniSIFT：面向高效全模态大型语言模型的模态不对称令牌压缩

发布: 4天前 (2026年2月5日 GMT+8 01:51)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.04804v1

Overview

OmniSIFT 解决了全模态大型语言模型（LLMs）中的一个最大瓶颈：由视频和音频令牌的长序列导致的巨大的计算成本。通过智能地裁剪冗余的视觉帧并过滤不相关的音频片段，该方法将令牌长度削减至原来的约四分之一，同时实际上提升了多个基准上的下游性能。

关键贡献

模态不对称压缩：为视频（时空剪枝）和音频（视觉引导选择）分别提供专门的管道。
两阶段、端到端可训练框架：可微分的直通估计器使压缩模块能够与 Omni‑LLM 联合学习。
极小开销：仅约 4.85 M 额外参数（≈0.07 % 的 7 B 模型），且延迟低于现有的免训练基线如 OmniZip。
显著的实证提升：在仅使用原始 token 数量 25 % 的情况下，OmniSIFT 超越所有先前的压缩方法，甚至在多个音视频理解任务上超过全 token 基线。
广泛评估：在涵盖视频 QA、音视频推理和多模态字幕的五个多样化基准上完成验证。

方法论

时空视频剪枝
- 帧内：轻量级 CNN 预测帧内哪些补丁包含有用信息（例如，运动物体、显著区域）。
- 帧间：时间相似度评分器识别近似重复的帧（例如，静态背景），并将其丢弃。
- 将两种信号融合，生成二进制掩码，在视觉令牌进入语言模型之前剔除冗余视觉令牌。
视觉引导的音频选择
- 剪枝后的视频表示被用作“引导”，对原始音频令牌流进行注意。
- 与视觉线索对齐不佳的音频片段（例如，背景噪声、静默间隔）会得到低分并被移除。
可微分压缩
- 两个剪枝模块输出硬二进制决策，但直通估计器在反向传播时将其视为连续值，使梯度能够从下游语言模型的损失中传递。
- 整个流水线（剪枝 + LLM）联合训练，使压缩器准确学习语言模型在每个任务中所需的内容。

结果与发现

Model (tokens)	Latency ↓	Avg. Score ↑	Notable Gains
Qwen2.5‑Omni‑7B (full)	baseline	73.2	–
OmniZip (training‑free)	+12 %	71.8	–
OmniSIFT (25 % tokens)	‑8 %	74.5	Beats full‑token model on VideoQA‑X and AVE‑Bench

参数效率：仅额外 4.85 M 参数，内存影响可忽略。
鲁棒性：在不同模态平衡的任务（例如音频占主导 vs 视频占主导）上性能保持。
消融实验：去除帧内或帧间组件会导致准确率下降约 1.3 %；禁用视觉引导的音频选择会使音频中心评分下降约 2 %。

实际意义

实时应用的更快推理：流媒体视频助手、实时字幕或 AR/VR 体验现在可以在边缘 GPU 或甚至高端移动设备上运行 Omni‑LLMs，而不牺牲质量。
成本效益的扩展：云服务提供商可以在每个 GPU 上服务更多并发用户，因为 token 长度——从而计算量——显著下降。
简化的数据管道：开发者可以直接输入原始视频/音频流；OmniSIFT 自动处理冗余去除，减少对手工预处理的需求。
节能：更少的 token 意味着更低的 FLOPs，符合大规模 AI 部署的可持续发展目标。

限制与未来工作

领域敏感性：剪枝启发式在训练数据上学习；高度专业化的领域（例如医学影像）可能需要微调或自定义掩码。
仅音频场景：当视觉线索缺失或极少时，视觉引导的音频选择器的收益有限，这表明需要补充的以音频为中心的压缩器。
向更大规模语言模型的可扩展性：实验聚焦于 7 B 模型；将该方法扩展到 70 B 规模的 Omni‑LLM 可能会暴露出掩码生成延迟的新瓶颈。
未来方向：探索每种模态的自适应 token 预算，将从下游任务信号中学习的多模态 token 重要性整合进去，并在更长形式的内容上进行测试（例如完整电影）。

作者

Yue Ding
Yiyan Ji
Jungang Li
Xuyang Liu
Xinlong Chen
Junfei Wu
Bozhou Li
Bohan Zeng
Yang Shi
Yushuo Guan
Yuanxing Zhang
Jiaheng Liu
Qiang Liu
Pengfei Wan
Liang Wang

论文信息

arXiv ID: 2602.04804v1
类别: cs.CL
出版日期: 2026年2月4日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] DFlash：块扩散用于 Flash 投机解码

自回归大型语言模型（LLMs）表现出色，但需要本质上顺序的解码，导致推理延迟高且 GPU 利用率差……

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

记忆在超出单个上下文窗口运行的大型语言模型（LLM）代理中变得日益核心，然而大多数现有系统仍依赖离线的、查询式的…

[论文] 通过自蒸馏的多标记预测

现有的加速语言模型推理的技术，例如 speculative decoding，需要训练辅助的 speculator 模型并构建和部署…

[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用

大型语言模型（LLMs）正日益以零样本方式用于评估心理健康状况，但我们对哪些因素了解有限，...