[Paper] AdaGReS:自适应贪婪上下文选择——基于冗余感知评分的 Token-Budgeted RAG

发布: (2026年1月1日 GMT+8 02:48)
7 min read
原文: arXiv

Source: arXiv - 2512.25052v1

概览

检索增强生成(RAG)系统依赖于引入外部文本片段(上下文),以帮助大型语言模型回答问题或完成任务。论文 AdaGReS 解决了一个出乎意料常见的问题:top‑k 检索步骤常会返回大量重叠或重复的块,浪费模型可处理的有限 token 预算,降低答案质量。AdaGReS 引入了一种 冗余感知 的选择算法,在相关性与多样性之间取得平衡,自动校准其权衡,并提供可证明的近最优保证。

关键贡献

  • Redundancy‑aware objective: 将上下文选择表述为集合层面的优化,在奖励与查询相关性同时惩罚集合内部相似度。
  • Greedy token‑budgeted selection: 为每个候选块推导边际增益,并在令牌预算耗尽前贪心选择块。
  • Adaptive relevance‑redundancy trade‑off: 提出基于候选池统计和令牌预算的闭式、实例特定 λ 参数(相关性 vs 冗余)校准,消除手动调参需求。
  • Theoretical guarantee: 在现实的嵌入相似性假设下证明目标函数是 ε‑近似子模的,从而为贪心算法提供可证明的 (1‑1/e‑ε) 近似界。
  • Empirical validation: 在 Natural Questions 和高冗余的生物医学药物语料库上展示了冗余显著降低以及下游问答性能提升。

方法论

  1. 候选生成: 对于给定查询,稠密检索器返回一个包含 N 文本块(例如 100)的池。每个块都有一个嵌入相似度分数 sᵢ,表示相关性。

  2. 评分函数:

    [ F(S) = \sum_{i\in S} s_i ;-; \lambda \sum_{i,j\in S, i<j} \text{sim}(c_i,c_j) ]

    • 第一个项奖励相关性。
    • 第二个项使用块嵌入之间的成对余弦相似度来惩罚冗余。
    • λ 控制权衡。
  3. 自适应 λ: 与其固定 λ,AdaGReS 根据相关性分数的均值/方差以及 token 预算 B 解析计算 λ。当池子高度冗余或预算紧张时,公式会提升 λ;当相关性占主导时,则降低 λ。

  4. 在预算下的贪心选择: 从空集合开始,算法反复加入能够产生最大 边际增益 ΔF 的块,同时保持总 token 数 ≤ B。由于目标函数(近似)子模,这一贪心过程接近最优。

  5. 实现细节: 该方法只需在现有检索‑生成流水线中加入少量代码(计算成对相似度和自适应 λ)即可,无需对检索器或生成器进行再训练。

结果与发现

数据集基线(top‑k)AdaGReS冗余 ↓令牌预算使用 ↑端到端 EM ↑
自然问题10 个块(≈ 800 令牌)8 个块(≈ 650 令牌)重复令牌减少 32 %节省 19 % 令牌+2.1 % 精确匹配
生物医学药物语料库12 个块(≈ 900 令牌)7 个块(≈ 540 令牌)冗余降低 45 %节省 40 % 令牌+3.4 % 精确匹配
  • 冗余控制: AdaGReS 一贯选择更少的重叠块,释放令牌用于更丰富的信息。
  • 答案质量: 适度的令牌节省转化为开放域问答中精确匹配和 F1 分数的可衡量提升。
  • 鲁棒性: 在不同预算(300 到 1200 令牌)和不同检索模型(稠密 vs. BM25)下,AdaGReS 保持优势,表明自适应 λ 真正适应了池的特性。

实际影响

  • 成本效益推理: 通过剔除冗余 token,开发者可以在更严格的 token 限制(例如 API 计费或延迟约束)内工作,而不牺牲答案质量。
  • 即插即用的改进: 现有的 RAG 流程(LangChain、LlamaIndex、Haystack 等)可以通过最小的代码改动集成 AdaGReS——只需将 top‑k 切片替换为贪婪选择器。
  • 领域特定收益: 在自然重叠度高的领域(法律文档、生物医学文献、产品手册),冗余惩罚能够带来更大的 token 节省,并为 LLM 提供更清晰、更简洁的上下文。
  • 更佳的用户体验: 终端用户会看到更准确、较少“幻觉”的答案,因为模型接收到的是更高质量、非冗余的证据。
  • 可扩展至大规模语料库: 该算法的复杂度为排序的 O(N log N) 加上边际增益更新的 O(N · k),即使在结合近似最近邻搜索时,也能在成千上万的候选项中保持可处理性。

局限性与未来工作

  • 成对相似度成本: 计算所有成对相似度随候选池规模呈二次增长;作者通过近似聚类进行缓解,但非常大的池仍可能昂贵。
  • 嵌入依赖性: 冗余惩罚依赖于块嵌入的质量;糟糕的嵌入可能误判相似度,从而过度或不足惩罚冗余。
  • 单模态聚焦: 当前公式假设文本块;扩展到多模态证据(表格、图形、代码片段)需要新的相似度度量。
  • 用户可控的权衡: 虽然自适应 λ 消除了手动调参,但某些应用可能希望显式控制相关性与多样性的权衡——未来工作可以提供更高层次的“预算激进度”旋钮。
  • 端到端训练: 将选择目标整合到可微分的检索‑生成循环中可能进一步提升性能,作者将此视为后续研究方向。

作者

  • Chao Peng
  • Bin Wang
  • Zhilei Long
  • Jinfang Sheng

论文信息

  • arXiv ID: 2512.25052v1
  • 分类: cs.CL, cs.AI, cs.IR
  • 发布日期: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »