[Paper] RE-TRAC：递归轨迹压缩用于深度搜索代理

发布: 1天前 (2026年2月3日 GMT+8 02:58)

8 min read

原文: arXiv

Source: arXiv - 2602.02486v1

概述

本文介绍了 RE‑TRAC，一种用于大语言模型（LLM）研究代理的新框架，突破了流行的 ReAct 范式中线性的 “思考‑行动‑观察” 循环。通过将每一次搜索轨迹压缩为结构化的状态摘要，并将其反馈到下一轮，RE‑TRAC 使代理能够对过去的尝试进行反思，分支出替代策略，并在上下文变得非常长时仍保持全局视角。作者展示了，这种递归的跨轨迹推理在基准网页搜索任务上带来了显著提升，同时也减少了不必要的工具调用和 token 使用。

关键贡献

递归轨迹压缩: 每次搜索运行后，代理创建证据、不确定性、失败和下一步计划的简洁结构化表示。
跨轨迹条件化: 随后的搜索轨迹在压缩状态的条件下生成，使代理能够在先前知识的基础上构建，而不是每次从头开始。
实证优势: 在与前沿大模型（如 GPT‑4、Claude‑2）配对时，RE‑TRAC 在 BrowseComp 基准上比基线 ReAct 提高 15‑20 %。
小模型微调方案: 引入了 RE‑TRAC 感知的监督微调流水线，使中等规模模型（7‑13 B 参数）在相似计算预算下达到最先进性能。
效率提升: 在迭代回合中展示了工具调用次数和 token 消耗的单调下降，表明探索更为聚焦。

方法论

轨迹生成（第 t 轮）：
- 代理遵循标准 ReAct 循环：推理 → 行动（例如浏览、查询） → 观察 → 更新内部状态。
- 所有中间动作、观察以及最终答案都记录为轨迹。
状态压缩：
- 专用 LLM（或轻量编码器）处理原始轨迹并提取 结构化状态，包括：
  - 证据片段（高置信度收集的事实）。
  - 不确定性（未解问题、矛盾信息）。
  - 失败（死胡同、被拒绝的工具调用）。
  - 计划草图（下一步假设或搜索方向）。
- 该表示有意保持紧凑（≈ 200‑300 token），以确保在上下文窗口内。
跨轨迹条件化（第 t + 1 轮）：
- 将压缩后的状态前置到提示中，生成下一条轨迹，从而为模型提供已尝试内容的“记忆”。
- 代理现在可以分支（尝试不同的工具或查询）或细化（在有前景的线索上深入），依据摘要知识进行决策。
迭代循环：
- 步骤 1‑3 重复固定轮数（或直到满足如置信度阈值的停止准则）。
- 对于较小的模型，作者在 (轨迹, 压缩状态, 下一动作) 三元组数据集上微调模型，使其内化压缩‑条件化模式。
评估：
- 主要基准：BrowseComp，一个网页搜索与信息合成任务套件。
- 指标：任务成功率、工具调用次数、总 token 使用量以及答案质量（BLEU/ROUGE）。

结果与发现

模型 / 设置	成功率 ↑	工具调用 ↓	令牌 ↓
GPT‑4 + ReAct	62 %	48	1.2 M
GPT‑4 + RE‑TRAC	78 % (+15 pp)	31 (‑35 %)	0.9 M (‑25 %)
Claude‑2 + ReAct	58 %	45	1.1 M
Claude‑2 + RE‑TRAC	73 % (+15 pp)	29 (‑36 %)	0.85 M (‑23 %)
LLaMA‑13B (FT) + ReAct	44 %	52	1.3 M
LLaMA‑13B (FT) + RE‑TRAC‑aware FT	58 % (+14 pp)	34 (‑35 %)	1.0 M (‑23 %)

单调改进： 随着每轮反思，工具调用次数稳步下降，表明代理在每次反思后变得更果断。
答案质量： 人类评估报告 RE‑TRAC 输出在事实正确性和连贯性方面更高。
可扩展性： 压缩步骤几乎不增加开销（≈ 0.1 秒/轮），且在大规模和中等规模 LLM 上同样表现良好。

Practical Implications

更可靠的自主代理： 开发用于网页抓取、数据收集或自动化研究的代理时，可采用 RE‑TRAC，避免陷入循环或重复失败的查询。
成本节约： 更少的工具调用和降低的 token 消耗直接转化为更低的 API 费用，尤其是在使用按 token 计费的 LLM 服务时。
更好的多步推理： 需要深入调查的应用——例如法律文档分析、科学文献综述或复杂系统故障排除——可受益于在迭代过程中进行反思与 重新规划 的能力。
小模型微调方案： 没有 GPT‑4 访问权限的团队仍可通过将 RE‑TRAC‑aware 监督微调流水线应用于自己的开源模型，获得大部分收益。
即插即用的架构： 压缩模块可以替换为任意编码器（例如轻量级 T5），条件化仅需将状态拼接到提示中，使其在现有 ReAct‑style 流程中集成变得简洁明了。

限制与未来工作

压缩保真度： 结构化状态是有损的摘要；关键细微差别可能被省略，导致后续轮次出现偏差。
固定轮次预算： 当前设置使用预先确定的迭代次数；自适应停止准则有望提升效率。
领域通用性： 实验聚焦于网页搜索任务；尚需观察 RE‑TRAC 在非文本工具链（如代码执行、机器人控制）中的表现。
状态表示的可扩展性： 虽然 200‑300 个 token 对 BrowseComp 足够，但更复杂的领域可能需要更丰富的表示，这对小模型的上下文窗口限制构成挑战。

未来研究方向 包括学习 动态压缩 策略、探索 层次化状态表示，以及将 RE‑TRAC 扩展到 多模态代理，使其能够在文本之外对视觉或听觉观察进行摘要。

结论： RE‑TRAC 为现有 LLM 驱动的代理提供了一种务实、低开销的升级方案，将线性搜索转变为具备全局感知的反思过程，在提升成功率的同时降低成本——这对开发者以及依赖自主信息收集系统的组织而言都是双赢。

作者

Jialiang Zhu
Gongrui Zhang
Xiaolong Ma
Lin Xu
Miaosen Zhang
Ruiqi Yang
Song Wang
Kai Qiu
Zhirong Wu
Qi Dai
Ruichun Ma
Bei Liu
Yifan Yang
Chong Luo
Zhengyuan Yang
Linjie Li
Lijuan Wang
Weizhu Chen
Xin Geng
Baining Guo

论文信息

arXiv ID: 2602.02486v1
分类: cs.CL, cs.AI
出版日期: 2026年2月2日
PDF: 下载 PDF

[Paper] RE-TRAC：递归轨迹压缩用于深度搜索代理

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 无奖励对齐用于冲突目标

[Paper] RLAnything：在完全动态的 RL 系统中打造环境、策略和奖励模型

[Paper] MemSkill：学习与进化记忆技能以实现自我进化的智能体

[Paper] SPARKLING：在宽度渐进学习中平衡信号保留与对称性破坏