[Paper] 让大语言模型成为高效稠密检索器

发布: 1个月前 (2025年12月24日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20612v1

概览

最新研究表明，将大规模语言模型（LLM）微调为密集检索器可以显著提升搜索质量，但这些模型的庞大规模导致在生产环境中运行成本高昂。本文探讨了在生成式 LLM 中有效的“层冗余”技巧是否同样适用于检索导向的模型，并提出了一套实用的压缩流水线——EffiR——在保持检索性能不变的前提下，大幅削减模型体积和延迟。

关键贡献

对基于 LLM 的稠密检索器进行 系统性冗余分析，揭示 MLP（前馈）层高度可剪枝，而注意力层仍然是必不可少的。
EffiR 框架结合两阶段压缩策略：
1. 粗粒度深度削减 – 删除整个 MLP 层。
2. 细粒度宽度削减 – 缩小剩余 MLP 的隐藏维度。
在压缩后进行 检索特定的微调，以恢复任何损失的准确性。
在 BEIR 基准上对多个 LLM 主干（如 LLaMA‑2、Mistral）进行 广泛评估，展示 最高 70 % 的 FLOPs 减少 和 ≈2× 更快的推理，且 nDCG@10 下降 ≤1 %。
开源实现和可复现脚本，便于社区立即采用。

方法论

基线设置 – 作者从公开可用的密集检索器开始，这些检索器在对比检索目标上微调冻结的 LLM 编码器（例如 LLaMA‑2‑7B）。
层级重要性研究 – 通过消融（一次移除一层）和敏感性分析（测量基于梯度的重要性），量化每个 Transformer 块对检索质量的贡献。
粗到细压缩
- 深度削减：根据重要性得分剪枝整个 MLP 子层，得到更浅的网络。
- 宽度削减：对剩余的 MLP，使用奇异值分解（SVD）和低秩分解压缩隐藏维度，保留大部分学习到的表征能力。
检索特定微调 – 压缩后，模型在相同的对比损失上重新训练，但对压缩层使用稍高的学习率以便其适应。
评估 – 在 BEIR 的 18 项异构检索任务上对压缩模型进行基准测试，测量效果（nDCG、MAP）和效率（参数量、FLOPs、单 GPU 延迟）。

结果与发现

模型（骨干）	参数 ↓	FLOPs ↓	nDCG@10（完整）	nDCG@10（EffiR）	加速比
LLaMA‑2‑7B	7B → 2.1B (‑70 %)	2.5× lower	0.527	0.521	≈2.1×
Mistral‑7B	7B → 2.3B (‑67 %)	2.3× lower	0.543	0.538	≈2.0×
LLaMA‑2‑13B	13B → 4.0B (‑69 %)	2.6× lower	0.562	0.557	≈2.2×

MLP 层 可以被移除或大幅压缩，对检索得分的影响极小。
Attention 层 不被剪枝；移除它们会导致 nDCG 损失超过 5 %，这证实了它们在跨查询/文档聚合语义线索中的关键作用。
粗到细 方法始终优于单步宽度缩减，在模型大小与准确性之间实现了更好的权衡。
在所有 BEIR 任务中，平均性能下降 低于 1 %，而推理延迟在单块 RTX 4090 GPU 上减半。

实际意义

可生产就绪的稠密检索：公司现在可以在普通硬件（单 GPU 或甚至 CPU 优化推理）上部署基于 LLM 的检索器，而不牺牲搜索质量。
成本节约：2 倍的加速直接转化为更低的云计算费用，使基于 LLM 的语义搜索对初创公司和中型企业也可行。
边缘与移动场景：压缩后的模型能够适配高端移动设备的内存限制，为设备端隐私保护搜索（例如个人知识库）打开了可能。
快速原型：开源的 EffiR 流程可以嵌入现有检索框架（如 Pyserini、Haystack），让开发者在几分钟内尝试不同的 LLM 主干和压缩程度。
面向未来：随着更新、更大的 LLM 出现，预计相同的冗余模式仍然适用，这意味着相同的压缩方案可以控制扩展成本。

限制与未来工作

注意力层刚性：研究确认注意力块对检索是不可或缺的，但未探讨在注意力内部进行更激进的稀疏化或低秩近似。
领域特定微调：实验聚焦于通用的 BEIR 数据集；在高度专业化的语料库（例如法律或生物医学）上的表现可能需要额外的领域适配。
硬件多样性：基准测试在高端 GPU 上运行；在 CPU、TPU 或推理加速器上的进一步评估将巩固其在真实场景中的适用性。
动态推理：未来工作可以研究条件执行（例如早退出策略），以进一步降低对简单查询的延迟。

总体而言，本文提供了一条清晰、可操作的路线图，将重量级 LLM 检索器转化为轻量级、生产级组件——这一进展应能在构建下一代搜索和推荐系统的开发者中产生强烈共鸣。

作者

Yibin Lei
Shwai He
Ang Li
Andrew Yates

论文信息

arXiv ID: 2512.20612v1
分类: cs.IR, cs.CL
发表时间: December 23, 2025
PDF: Download PDF

[Paper] 让大语言模型成为高效稠密检索器

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

[Paper] 介绍 TrGLUE 与 SentiTurca：土耳其语通用语言理解与情感分析的综合基准

[Paper] 统一学习动力学与泛化的Transformer缩放定律

[Paper] 将上下文作为工具：长时程 SWE-Agents 的上下文管理