[Paper] 检索还是思考？一种面向主体性的上下文演化方法

发布: 3个月前 (2026年1月14日 GMT+8 01:25)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.08747v1

Overview

本文提出了 Agentic Context Evolution (ACE)，一个新框架，使语言模型能够决定何时获取外部信息以及何时继续使用已有知识进行推理。通过模拟人类的元认知，ACE 减少了不必要的检索调用，降低了 token 使用量，并提升了多跳问答任务的准确性。

Agentic decision‑making: 引入一个中心编排器，通过多数投票在 retriever 代理和 reasoner 代理之间进行选择，而不是在每个生成步骤都进行检索。
Dynamic context evolution: 通过仅在编排器认为有益时添加新证据，保持提示上下文的紧凑。
Efficiency gains: 在基准数据集上展示了检索的 token 减少约 30%，同时提升答案准确性。
Broad applicability: 表明该方法可在多个多跳问答数据集（如 HotpotQA、ComplexWebQuestions）上工作，无需任务特定调优。
Open‑source implementation: 提供代码和模型检查点，以实现可重复性并便于集成到现有流水线。

三‑代理架构
- Orchestrator（协调器）: 一个轻量级分类器（通常是小型 LLM），评估当前上下文并决定下一步行动。
- Retriever agent（检索代理）: 调用外部知识库（例如 dense passage retrieval）在需要时拉取新段落。
- Reasoner agent（推理代理）: 对已有上下文进行 chain‑of‑thought 风格的推理，以完善或生成答案。
多数投票决策循环
- 在每一步，Orchestrator 运行多个“意见”（例如不同的提示模板），并通过多数投票选择 retrieve（检索）或 reason（推理）。
- 这模拟了一种元认知检查：“我是否已有足够的证据，还是需要进一步查找？”
上下文演化
- 当选择 retrieve 时，新的段落被追加，Orchestrator 重新评估。
- 当选择 reason 时，Reasoner 在不扩展 token 窗口的情况下更新内部答案草稿。
训练与微调
- 对 Orchestrator 进行微调，使用一个小的标注数据集，指示何时检索有帮助、何时多余。
- Retriever 和 Reasoner 使用现成的预训练模型（例如用于检索的 DPR，用于推理的 GPT‑3.5‑style）。

整个循环持续运行，直至满足停止条件（置信度阈值或最大步数）。

数据集	基线（每步检索）	ACE（我们的）	标记减少
HotpotQA（完整）	78.4 % EM	84.1 % EM	~28 %
ComplexWebQuestions	62.7 % EM	68.3 % EM	~31 %
TriviaQA（多跳）	71.5 % EM	76.9 % EM	~26 %

总体而言，ACE 为更智能、更经济的 LLM 驱动推理系统开辟了一条有前景的道路，使系统能够知道何时“查找”信息，何时“思考”。