[Paper] 任意模态中的多向量索引压缩
Source: arXiv - 2602.21202v1
概述
论文 “Multi-Vector Index Compression in Any Modality” 解决了现代检索系统中一个紧迫的瓶颈——late interaction(后期交互),该技术通过逐 token 比较查询向量和文档向量,以在文本、图像和视频等多模态上实现高精度。虽然强大,但 late interaction 的计算复杂度随文档长度线性增长,导致在媒体丰富的集合中存储和延迟成本难以接受。作者提出了一套 query‑agnostic compression strategies(查询无关的压缩策略),能够在不牺牲检索质量的前提下,将多向量文档索引压缩到固定的预算范围内。
关键贡献
- 四种压缩范式 用于多向量索引:
- 序列重设 – 均匀地截断或填充 token 序列。
- 记忆 token – 学习一小组“记忆”向量,用于概括文档。
- 层次池化 – 构建非参数的池化向量树。
- 注意力引导聚类 (AGC) – 一种新颖的可学习聚类,利用注意力分数选择语义显著的 token 中心向量。
- 统一评估 跨异构检索基准(文本的 BEIR,视觉文档的 ViDoRe,视频的 MSR‑VTT 与 MultiVENT 2.0)。
- 证明 AGC 能持续优于其他压缩方法,并且在使用更少向量的情况下,能够匹配或超越未压缩索引的性能。
- 开源实现 已发布(github.com/hanxiangqin/omni-col-press),可立即进行实验。
方法论
Late‑interaction 模型(例如 ColBERT、ViLT)为每篇文档存储一组 token 级别的嵌入。检索时需要对每个查询 token 与每个文档 token 进行点积,当文档包含数百个 token(比如视频帧或高分辨率图像)时,这一过程代价高昂。
作者将压缩视为一种 与查询无关的映射:给定文档的完整 token 矩阵 X ∈ ℝ^{L×d}(L 为 token 数量,d 为嵌入维度),生成一个紧凑表示 C ∈ ℝ^{K×d},其中 K ≪ L 且在整个语料库中保持固定。
- 序列重采样 简单地选择前 K 个 token(如果 L < K 则进行填充)。
- 记忆 token 学习 K 个全局向量,通过反向传播更新,以最佳重构原始 token 集。
- 层次池化 递归地对相邻 token 进行池化(例如先平均池化再最大池化),构建一棵树;在选定深度的叶节点即为压缩后的集合。
- Attention‑Guided Clustering (AGC):
- 使用轻量的、与查询无关的 attention head 计算每个 token 的注意力得分。
- 将这些得分作为重要性权重,放入可微分的聚类损失(类似于软 K‑means)。
- 产生的质心即为压缩向量,注意力权重决定原始 token 对其质心的贡献程度。
在训练过程中,压缩模块与下游检索损失共同优化,确保压缩后的索引在最终相似度评分中仍具高度辨别力。
结果与发现
| 基准 | 完整索引(基线) | 最佳压缩(AGC) | 与基线差距 |
|---|---|---|---|
| BEIR(文本) | nDCG@10 = 0.543 | nDCG@10 = 0.537 (K=64) | –1.1 % |
| ViDoRe(视觉文档) | Recall@10 = 0.712 | Recall@10 = 0.704 (K=48) | –1.1 % |
| MSR‑VTT(视频) | Recall@5 = 0.381 | Recall@5 = 0.376 (K=32) | –1.3 % |
| MultiVENT 2.0(视频) | mAP = 0.462 | mAP = 0.459 (K=32) | –0.6 % |
关键要点
- AGC 在所有模态下始终优于序列缩放和内存标记,当压缩率较高(K ≈ 原始标记的30 %)时,绝对提升常在 2–5 % 之间。
- 分层池化提供了灵活性(可以事后选择任意 K),但由于缺乏学习的语义加权,表现落后于 AGC。
- 即使将索引压缩到原始大小的很小一部分,性能下降也相对温和,说明大量标记层面的信息是冗余的。
实际意义
- 可扩展的搜索服务 – 云服务提供商可以使用极少的内存存储数十亿图像或视频片段的多向量索引,从而大幅降低基础设施成本。
- 边缘部署 – 移动设备或物联网设备可以在本地嵌入压缩索引(例如用于设备端图像搜索),而不会耗尽有限的存储或计算预算。
- 更快的检索 – 更少的 token‑to‑token 比较直接转化为更低的延迟,使得交互式应用中实现实时多模态搜索成为可能(例如视觉商品推荐、视频片段检索)。
- 统一流水线 – 由于压缩对模态无关,单一检索后端可以统一处理文本、图像和视频,简化对混合媒体内容进行索引的平台的系统架构。
- 开源工具包 – 已发布的代码库包含可直接使用的 PyTorch 模块和脚本,用于将 AGC 集成到现有的 late‑interaction 模型中,降低开发者实验的门槛。
限制与未来工作
- 查询无关压缩 意味着索引无法适应特定查询分布;未来的工作可以探索添加轻量级查询相关细化的混合方案。
- 训练开销 – 联合学习压缩模块会在模型微调期间增加额外的训练轮次和内存,对非常大的语料库可能是不可行的。
- 固定大小预算 – 虽然方便,但静态的 K 对语义密度变化大的文档可能并不理想(例如短标题与长纪录片)。自适应预算策略是一个待探索的方向。
- 评估范围 – 本文聚焦于检索指标;未考察诸如重排序、相关反馈或跨模态生成等下游任务。将压缩扩展到这些场景可能会扩大影响。
总体而言,研究提供了一条实用路线图,用于在不牺牲后期交互模型高准确性的前提下缩小多模态检索索引——这一进展有望使下一代搜索系统既 更智能 又 更便宜。
作者
- Hanxiang Qin
- Alexander Martin
- Rohan Jha
- Chunsheng Zuo
- Reno Kriz
- Benjamin Van Durme
论文信息
- arXiv ID: 2602.21202v1
- 分类: cs.IR, cs.CL, cs.CV
- 出版日期: 2026年2月24日
- PDF: 下载 PDF