[Paper] 检索还是思考?一种面向主体性的上下文演化方法

发布: (2026年1月14日 GMT+8 01:25)
7 min read
原文: arXiv

Source: arXiv - 2601.08747v1

Overview

本文提出了 Agentic Context Evolution (ACE),一个新框架,使语言模型能够决定 何时 获取外部信息以及 何时 继续使用已有知识进行推理。通过模拟人类的元认知,ACE 减少了不必要的检索调用,降低了 token 使用量,并提升了多跳问答任务的准确性。

关键贡献

  • Agentic decision‑making: 引入一个中心编排器,通过多数投票在 retriever 代理和 reasoner 代理之间进行选择,而不是在每个生成步骤都进行检索。
  • Dynamic context evolution: 通过仅在编排器认为有益时添加新证据,保持提示上下文的紧凑。
  • Efficiency gains: 在基准数据集上展示了检索的 token 减少约 30%,同时提升答案准确性。
  • Broad applicability: 表明该方法可在多个多跳问答数据集(如 HotpotQA、ComplexWebQuestions)上工作,无需任务特定调优。
  • Open‑source implementation: 提供代码和模型检查点,以实现可重复性并便于集成到现有流水线。

方法论

  1. 三‑代理架构

    • Orchestrator(协调器): 一个轻量级分类器(通常是小型 LLM),评估当前上下文并决定下一步行动。
    • Retriever agent(检索代理): 调用外部知识库(例如 dense passage retrieval)在需要时拉取新段落。
    • Reasoner agent(推理代理): 对已有上下文进行 chain‑of‑thought 风格的推理,以完善或生成答案。
  2. 多数投票决策循环

    • 在每一步,Orchestrator 运行多个“意见”(例如不同的提示模板),并通过多数投票选择 retrieve(检索)或 reason(推理)。
    • 这模拟了一种元认知检查:“我是否已有足够的证据,还是需要进一步查找?”
  3. 上下文演化

    • 当选择 retrieve 时,新的段落被追加,Orchestrator 重新评估。
    • 当选择 reason 时,Reasoner 在不扩展 token 窗口的情况下更新内部答案草稿。
  4. 训练与微调

    • 对 Orchestrator 进行微调,使用一个小的标注数据集,指示何时检索有帮助、何时多余。
    • Retriever 和 Reasoner 使用现成的预训练模型(例如用于检索的 DPR,用于推理的 GPT‑3.5‑style)。

整个循环持续运行,直至满足停止条件(置信度阈值或最大步数)。

结果与发现

数据集基线(每步检索)ACE(我们的)标记减少
HotpotQA(完整)78.4 % EM84.1 % EM~28 %
ComplexWebQuestions62.7 % EM68.3 % EM~31 %
TriviaQA(多跳)71.5 % EM76.9 % EM~26 %
  • 准确率提升: ACE 始终以 4–6 % 的精确匹配得分超越强大的检索增强基线。
  • 标记效率: 由于仅在需要时才调用检索,每个问题处理的总标记数下降约四分之一,从而降低推理延迟和成本。
  • 消融实验: 移除多数投票调度器(即随机选择)会使性能跌回基线水平,验证了策略决策的重要性。

实际影响

  • 成本效益高的 LLM 服务: 云提供商可以嵌入 ACE,以降低知识密集型应用(例如企业问答、支持机器人)的 API 令牌费用。
  • 更快的响应时间: 检索调用更少意味着更低的延迟,这对实时助手至关重要。
  • 更简洁的提示: 通过保持上下文简洁,开发者避免触及模型上下文长度限制,从而能够使用更大的 LLM 进行下游推理。
  • 模块化集成: ACE 的三代理设计可以轻松嵌入现有的检索增强流水线,只需最少的代码更改——将 “始终检索” 循环替换为编排器决策步骤。
  • 更佳的用户体验: 通过减少因不相关检索段落导致的幻觉,提供在高风险领域(法律、医疗、金融)更可信的答案。

限制与未来工作

  • Orchestrator 对标记信号的依赖: 决策模型需要适量的任务特定监督;完全无监督的元认知仍是一个未解的挑战。
  • 投票的可扩展性: 多数投票会带来少量开销;未来工作可以探索更轻量的基于置信度的启发式方法。
  • 领域适应性: 实验聚焦于开放域问答;将 ACE 应用于高度专业化的语料库(例如科学文献)可能需要定制检索器。
  • 可解释性: 虽然 Orchestrator 的选择原则上是透明的,但解释它为何选择检索而非推理仍需要更丰富的内省工具。

总体而言,ACE 为更智能、更经济的 LLM 驱动推理系统开辟了一条有前景的道路,使系统能够知道何时“查找”信息,何时“思考”。

作者

  • Rubing Chen
  • Jian Wang
  • Wenjie Li
  • Xiao‑Yong Wei
  • Qing Li

论文信息

  • arXiv ID: 2601.08747v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »