[Paper] RE-TRAC:递归轨迹压缩用于深度搜索代理

发布: (2026年2月3日 GMT+8 02:58)
8 min read
原文: arXiv

Source: arXiv - 2602.02486v1

概述

本文介绍了 RE‑TRAC,一种用于大语言模型(LLM)研究代理的新框架,突破了流行的 ReAct 范式中线性的 “思考‑行动‑观察” 循环。通过将每一次搜索轨迹压缩为结构化的状态摘要,并将其反馈到下一轮,RE‑TRAC 使代理能够对过去的尝试进行反思,分支出替代策略,并在上下文变得非常长时仍保持全局视角。作者展示了,这种递归的跨轨迹推理在基准网页搜索任务上带来了显著提升,同时也减少了不必要的工具调用和 token 使用。

关键贡献

  • 递归轨迹压缩: 每次搜索运行后,代理创建证据、不确定性、失败和下一步计划的简洁结构化表示。
  • 跨轨迹条件化: 随后的搜索轨迹在压缩状态的条件下生成,使代理能够在先前知识的基础上构建,而不是每次从头开始。
  • 实证优势: 在与前沿大模型(如 GPT‑4、Claude‑2)配对时,RE‑TRAC 在 BrowseComp 基准上比基线 ReAct 提高 15‑20 %
  • 小模型微调方案: 引入了 RE‑TRAC 感知的监督微调流水线,使中等规模模型(7‑13 B 参数)在相似计算预算下达到最先进性能。
  • 效率提升: 在迭代回合中展示了工具调用次数和 token 消耗的单调下降,表明探索更为聚焦。

方法论

  1. 轨迹生成(第 t 轮):

    • 代理遵循标准 ReAct 循环:推理 → 行动(例如浏览、查询) → 观察 → 更新内部状态
    • 所有中间动作、观察以及最终答案都记录为 轨迹
  2. 状态压缩:

    • 专用 LLM(或轻量编码器)处理原始轨迹并提取 结构化状态,包括:
      • 证据片段(高置信度收集的事实)。
      • 不确定性(未解问题、矛盾信息)。
      • 失败(死胡同、被拒绝的工具调用)。
      • 计划草图(下一步假设或搜索方向)。
    • 该表示有意保持紧凑(≈ 200‑300 token),以确保在上下文窗口内。
  3. 跨轨迹条件化(第 t + 1 轮):

    • 将压缩后的状态 前置到提示中,生成下一条轨迹,从而为模型提供已尝试内容的“记忆”。
    • 代理现在可以 分支(尝试不同的工具或查询)或 细化(在有前景的线索上深入),依据摘要知识进行决策。
  4. 迭代循环:

    • 步骤 1‑3 重复固定轮数(或直到满足如置信度阈值的停止准则)。
    • 对于较小的模型,作者在 (轨迹, 压缩状态, 下一动作) 三元组数据集上微调模型,使其内化压缩‑条件化模式。
  5. 评估:

    • 主要基准:BrowseComp,一个网页搜索与信息合成任务套件。
    • 指标:任务成功率、工具调用次数、总 token 使用量以及答案质量(BLEU/ROUGE)。

结果与发现

模型 / 设置成功率 ↑工具调用 ↓令牌 ↓
GPT‑4 + ReAct62 %481.2 M
GPT‑4 + RE‑TRAC78 % (+15 pp)31 (‑35 %)0.9 M (‑25 %)
Claude‑2 + ReAct58 %451.1 M
Claude‑2 + RE‑TRAC73 % (+15 pp)29 (‑36 %)0.85 M (‑23 %)
LLaMA‑13B (FT) + ReAct44 %521.3 M
LLaMA‑13B (FT) + RE‑TRAC‑aware FT58 % (+14 pp)34 (‑35 %)1.0 M (‑23 %)
  • 单调改进: 随着每轮反思,工具调用次数稳步下降,表明代理在每次反思后变得更果断。
  • 答案质量: 人类评估报告 RE‑TRAC 输出在事实正确性和连贯性方面更高。
  • 可扩展性: 压缩步骤几乎不增加开销(≈ 0.1 秒/轮),且在大规模和中等规模 LLM 上同样表现良好。

Practical Implications

  • 更可靠的自主代理: 开发用于网页抓取、数据收集或自动化研究的代理时,可采用 RE‑TRAC,避免陷入循环或重复失败的查询。
  • 成本节约: 更少的工具调用和降低的 token 消耗直接转化为更低的 API 费用,尤其是在使用按 token 计费的 LLM 服务时。
  • 更好的多步推理: 需要深入调查的应用——例如法律文档分析、科学文献综述或复杂系统故障排除——可受益于在迭代过程中进行 反思重新规划 的能力。
  • 小模型微调方案: 没有 GPT‑4 访问权限的团队仍可通过将 RE‑TRAC‑aware 监督微调流水线应用于自己的开源模型,获得大部分收益。
  • 即插即用的架构: 压缩模块可以替换为任意编码器(例如轻量级 T5),条件化仅需将状态拼接到提示中,使其在现有 ReAct‑style 流程中集成变得简洁明了。

限制与未来工作

  • 压缩保真度: 结构化状态是有损的摘要;关键细微差别可能被省略,导致后续轮次出现偏差。
  • 固定轮次预算: 当前设置使用预先确定的迭代次数;自适应停止准则有望提升效率。
  • 领域通用性: 实验聚焦于网页搜索任务;尚需观察 RE‑TRAC 在非文本工具链(如代码执行、机器人控制)中的表现。
  • 状态表示的可扩展性: 虽然 200‑300 个 token 对 BrowseComp 足够,但更复杂的领域可能需要更丰富的表示,这对小模型的上下文窗口限制构成挑战。

未来研究方向 包括学习 动态压缩 策略、探索 层次化状态表示,以及将 RE‑TRAC 扩展到 多模态代理,使其能够在文本之外对视觉或听觉观察进行摘要。

结论: RE‑TRAC 为现有 LLM 驱动的代理提供了一种务实、低开销的升级方案,将线性搜索转变为具备全局感知的反思过程,在提升成功率的同时降低成本——这对开发者以及依赖自主信息收集系统的组织而言都是双赢。

作者

  • Jialiang Zhu
  • Gongrui Zhang
  • Xiaolong Ma
  • Lin Xu
  • Miaosen Zhang
  • Ruiqi Yang
  • Song Wang
  • Kai Qiu
  • Zhirong Wu
  • Qi Dai
  • Ruichun Ma
  • Bei Liu
  • Yifan Yang
  • Chong Luo
  • Zhengyuan Yang
  • Linjie Li
  • Lijuan Wang
  • Weizhu Chen
  • Xin Geng
  • Baining Guo

论文信息

  • arXiv ID: 2602.02486v1
  • 分类: cs.CL, cs.AI
  • 出版日期: 2026年2月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »