[Paper] 检索还是思考?一种面向主体性的上下文演化方法
发布: (2026年1月14日 GMT+8 01:25)
7 min read
原文: arXiv
Source: arXiv - 2601.08747v1
Overview
本文提出了 Agentic Context Evolution (ACE),一个新框架,使语言模型能够决定 何时 获取外部信息以及 何时 继续使用已有知识进行推理。通过模拟人类的元认知,ACE 减少了不必要的检索调用,降低了 token 使用量,并提升了多跳问答任务的准确性。
关键贡献
- Agentic decision‑making: 引入一个中心编排器,通过多数投票在 retriever 代理和 reasoner 代理之间进行选择,而不是在每个生成步骤都进行检索。
- Dynamic context evolution: 通过仅在编排器认为有益时添加新证据,保持提示上下文的紧凑。
- Efficiency gains: 在基准数据集上展示了检索的 token 减少约 30%,同时提升答案准确性。
- Broad applicability: 表明该方法可在多个多跳问答数据集(如 HotpotQA、ComplexWebQuestions)上工作,无需任务特定调优。
- Open‑source implementation: 提供代码和模型检查点,以实现可重复性并便于集成到现有流水线。
方法论
-
三‑代理架构
- Orchestrator(协调器): 一个轻量级分类器(通常是小型 LLM),评估当前上下文并决定下一步行动。
- Retriever agent(检索代理): 调用外部知识库(例如 dense passage retrieval)在需要时拉取新段落。
- Reasoner agent(推理代理): 对已有上下文进行 chain‑of‑thought 风格的推理,以完善或生成答案。
-
多数投票决策循环
- 在每一步,Orchestrator 运行多个“意见”(例如不同的提示模板),并通过多数投票选择 retrieve(检索)或 reason(推理)。
- 这模拟了一种元认知检查:“我是否已有足够的证据,还是需要进一步查找?”
-
上下文演化
- 当选择 retrieve 时,新的段落被追加,Orchestrator 重新评估。
- 当选择 reason 时,Reasoner 在不扩展 token 窗口的情况下更新内部答案草稿。
-
训练与微调
- 对 Orchestrator 进行微调,使用一个小的标注数据集,指示何时检索有帮助、何时多余。
- Retriever 和 Reasoner 使用现成的预训练模型(例如用于检索的 DPR,用于推理的 GPT‑3.5‑style)。
整个循环持续运行,直至满足停止条件(置信度阈值或最大步数)。
结果与发现
| 数据集 | 基线(每步检索) | ACE(我们的) | 标记减少 |
|---|---|---|---|
| HotpotQA(完整) | 78.4 % EM | 84.1 % EM | ~28 % |
| ComplexWebQuestions | 62.7 % EM | 68.3 % EM | ~31 % |
| TriviaQA(多跳) | 71.5 % EM | 76.9 % EM | ~26 % |
- 准确率提升: ACE 始终以 4–6 % 的精确匹配得分超越强大的检索增强基线。
- 标记效率: 由于仅在需要时才调用检索,每个问题处理的总标记数下降约四分之一,从而降低推理延迟和成本。
- 消融实验: 移除多数投票调度器(即随机选择)会使性能跌回基线水平,验证了策略决策的重要性。
实际影响
- 成本效益高的 LLM 服务: 云提供商可以嵌入 ACE,以降低知识密集型应用(例如企业问答、支持机器人)的 API 令牌费用。
- 更快的响应时间: 检索调用更少意味着更低的延迟,这对实时助手至关重要。
- 更简洁的提示: 通过保持上下文简洁,开发者避免触及模型上下文长度限制,从而能够使用更大的 LLM 进行下游推理。
- 模块化集成: ACE 的三代理设计可以轻松嵌入现有的检索增强流水线,只需最少的代码更改——将 “始终检索” 循环替换为编排器决策步骤。
- 更佳的用户体验: 通过减少因不相关检索段落导致的幻觉,提供在高风险领域(法律、医疗、金融)更可信的答案。
限制与未来工作
- Orchestrator 对标记信号的依赖: 决策模型需要适量的任务特定监督;完全无监督的元认知仍是一个未解的挑战。
- 投票的可扩展性: 多数投票会带来少量开销;未来工作可以探索更轻量的基于置信度的启发式方法。
- 领域适应性: 实验聚焦于开放域问答;将 ACE 应用于高度专业化的语料库(例如科学文献)可能需要定制检索器。
- 可解释性: 虽然 Orchestrator 的选择原则上是透明的,但解释它为何选择检索而非推理仍需要更丰富的内省工具。
总体而言,ACE 为更智能、更经济的 LLM 驱动推理系统开辟了一条有前景的道路,使系统能够知道何时“查找”信息,何时“思考”。
作者
- Rubing Chen
- Jian Wang
- Wenjie Li
- Xiao‑Yong Wei
- Qing Li
论文信息
- arXiv ID: 2601.08747v1
- 分类: cs.CL, cs.AI
- 发表时间: 2026年1月13日
- PDF: 下载 PDF