[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion:行业部署经验

发布: (2026年3月3日 GMT+8 02:15)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.02153v1

Overview

本文研究了经典检索‑融合技巧——例如发起多个查询或使用 Reciprocal Rank Fusion(RRF)——在 真实世界的检索增强生成(RAG) 系统中是否真的有效。通过将这些技术嵌入企业级流水线(固定检索深度、重新排序预算以及严格的延迟限制),作者展示了在考虑系统下游约束后,预期的答案质量提升往往会消失。

关键贡献

  • 对生产环境 RAG 堆栈中的检索融合进行实证评估(多查询、RRF 和混合变体)。
  • 演示 原始召回率的提升并不一定能可靠转化为更高的端到端准确率(例如,多个融合配置下 Hit@10 从 0.51 降至 0.48)。
  • 查询重写和更大候选池 引入的 延迟开销 进行量化分析。
  • 联合评估框架,用于评估检索质量、系统效率以及下游生成的影响。
  • 为工程师提供的实用建议:在受延迟约束的情况下,优先考虑 预算感知的重新排序 而非激进的融合。

方法论

  1. 数据集与知识库 – 一个内部企业知识库(≈ 数百万文档)以及一组用户查询测试案例。
  2. 基线流水线 – 单查询检索(BM25 + dense encoder)→ top‑k 候选 → 轻量级 cross‑encoder 重排序 → 截断上下文输入 LLM 生成器。
  3. 融合变体
    • 多查询:生成原始查询的多个同义改写并合并结果。
    • 倒数排名融合(Reciprocal Rank Fusion, RRF):使用经典 RRF 公式合并不同检索器的排序列表。
    • 混合:将多查询与 RRF 结合。
  4. 约束条件 – 固定检索深度(例如 100 篇文档),硬性重排序预算(最多 20 次 cross‑encoder 调用),以及延迟上限(约 300 ms 每次请求)。
  5. 指标
    • 检索阶段的 Recall@k
    • 重排序和生成后的 KB‑level Top‑k 准确率(Hit@10)。
    • 延迟(查询改写 + 检索 + 重排序)。

所有实验均在相同硬件上运行,以隔离融合逻辑的影响。

结果与发现

配置检索召回率@100命中率@10(端到端)平均延迟
单查询(基线)0.620.51280 ms
多查询(3 个改写)0.71 (+14 pts)0.48340 ms
RRF(2 个检索器)0.68 (+6 pts)0.49325 ms
混合(多查询 + RRF)0.73 (+11 pts)0.48360 ms

关键要点

  • 召回提升是真实的(最高可达 +14 pts),但在 重排序后消失,因为重排序器只能检查放大的候选集合中的有限切片。
  • 命中率@10 从未超过基线;实际上,在大多数融合设置下略有下降。
  • 延迟增加了 15‑30 %,主要是由于额外的查询生成以及喂给重排序器的候选池变大。
  • 重排序预算是瓶颈:一旦达到上限,增加更多候选并不会有帮助,甚至可能有害,因为最佳文档会被挤出重排序器看到的 top‑k。

Practical Implications

  • 工程师应将检索融合视为“预算感知”的优化。如果你的流水线已经接近严格的延迟或重新排序配额,向检索器投放更多查询不太可能提升面向用户的答案质量。
  • 侧重更智能的重新排序(例如,早退出模型、层次化重新排序器),而不是单纯扩大原始候选池。
  • 监控流水线:在仪表盘中同时展示召回层面的指标以及下游的准确率/延迟;仅召回率上升而端到端质量停滞时应视为警示信号。
  • 成本敏感的部署(基于云的 RAG 服务)可以通过在严格 SLA 下关闭多查询或 RRF 来节省计算费用。
  • 对于 企业搜索产品,论文指出,经过良好调优的单查询检索器 + 高效重新排序器往往优于更复杂的融合流水线。

限制与未来工作

  • 该研究局限于 一个专有知识库;在开放域语料或多语言数据上结果可能会有所不同。
  • 只检查了 一种重排序器(cross‑encoder)和单一的 LLM 生成器;替代架构可能会改变权衡。
  • 延迟测量是在 固定硬件 上进行的;扩展到分布式或 GPU 加速的设置可能会减轻部分开销。
  • 未来的研究方向包括:基于延迟预算 动态调整查询数量 的自适应融合,以及检索‑融合与重排序组件的联合训练,以更好地使召回率与下游效果保持一致。

作者

  • Luigi Medrano
  • Arush Verma
  • Mukul Chhabra

论文信息

  • arXiv ID: 2603.02153v1
  • 分类: cs.IR, cs.AI, cs.CL
  • 发表时间: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »