[Paper] RE-TRAC:递归轨迹压缩用于深度搜索代理
发布: (2026年2月3日 GMT+8 02:58)
8 min read
原文: arXiv
Source: arXiv - 2602.02486v1
概述
本文介绍了 RE‑TRAC,一种用于大语言模型(LLM)研究代理的新框架,突破了流行的 ReAct 范式中线性的 “思考‑行动‑观察” 循环。通过将每一次搜索轨迹压缩为结构化的状态摘要,并将其反馈到下一轮,RE‑TRAC 使代理能够对过去的尝试进行反思,分支出替代策略,并在上下文变得非常长时仍保持全局视角。作者展示了,这种递归的跨轨迹推理在基准网页搜索任务上带来了显著提升,同时也减少了不必要的工具调用和 token 使用。
关键贡献
- 递归轨迹压缩: 每次搜索运行后,代理创建证据、不确定性、失败和下一步计划的简洁结构化表示。
- 跨轨迹条件化: 随后的搜索轨迹在压缩状态的条件下生成,使代理能够在先前知识的基础上构建,而不是每次从头开始。
- 实证优势: 在与前沿大模型(如 GPT‑4、Claude‑2)配对时,RE‑TRAC 在 BrowseComp 基准上比基线 ReAct 提高 15‑20 %。
- 小模型微调方案: 引入了 RE‑TRAC 感知的监督微调流水线,使中等规模模型(7‑13 B 参数)在相似计算预算下达到最先进性能。
- 效率提升: 在迭代回合中展示了工具调用次数和 token 消耗的单调下降,表明探索更为聚焦。
方法论
-
轨迹生成(第 t 轮):
- 代理遵循标准 ReAct 循环:推理 → 行动(例如浏览、查询) → 观察 → 更新内部状态。
- 所有中间动作、观察以及最终答案都记录为 轨迹。
-
状态压缩:
- 专用 LLM(或轻量编码器)处理原始轨迹并提取 结构化状态,包括:
- 证据片段(高置信度收集的事实)。
- 不确定性(未解问题、矛盾信息)。
- 失败(死胡同、被拒绝的工具调用)。
- 计划草图(下一步假设或搜索方向)。
- 该表示有意保持紧凑(≈ 200‑300 token),以确保在上下文窗口内。
- 专用 LLM(或轻量编码器)处理原始轨迹并提取 结构化状态,包括:
-
跨轨迹条件化(第 t + 1 轮):
- 将压缩后的状态 前置到提示中,生成下一条轨迹,从而为模型提供已尝试内容的“记忆”。
- 代理现在可以 分支(尝试不同的工具或查询)或 细化(在有前景的线索上深入),依据摘要知识进行决策。
-
迭代循环:
- 步骤 1‑3 重复固定轮数(或直到满足如置信度阈值的停止准则)。
- 对于较小的模型,作者在 (轨迹, 压缩状态, 下一动作) 三元组数据集上微调模型,使其内化压缩‑条件化模式。
-
评估:
- 主要基准:BrowseComp,一个网页搜索与信息合成任务套件。
- 指标:任务成功率、工具调用次数、总 token 使用量以及答案质量(BLEU/ROUGE)。
结果与发现
| 模型 / 设置 | 成功率 ↑ | 工具调用 ↓ | 令牌 ↓ |
|---|---|---|---|
| GPT‑4 + ReAct | 62 % | 48 | 1.2 M |
| GPT‑4 + RE‑TRAC | 78 % (+15 pp) | 31 (‑35 %) | 0.9 M (‑25 %) |
| Claude‑2 + ReAct | 58 % | 45 | 1.1 M |
| Claude‑2 + RE‑TRAC | 73 % (+15 pp) | 29 (‑36 %) | 0.85 M (‑23 %) |
| LLaMA‑13B (FT) + ReAct | 44 % | 52 | 1.3 M |
| LLaMA‑13B (FT) + RE‑TRAC‑aware FT | 58 % (+14 pp) | 34 (‑35 %) | 1.0 M (‑23 %) |
- 单调改进: 随着每轮反思,工具调用次数稳步下降,表明代理在每次反思后变得更果断。
- 答案质量: 人类评估报告 RE‑TRAC 输出在事实正确性和连贯性方面更高。
- 可扩展性: 压缩步骤几乎不增加开销(≈ 0.1 秒/轮),且在大规模和中等规模 LLM 上同样表现良好。
Practical Implications
- 更可靠的自主代理: 开发用于网页抓取、数据收集或自动化研究的代理时,可采用 RE‑TRAC,避免陷入循环或重复失败的查询。
- 成本节约: 更少的工具调用和降低的 token 消耗直接转化为更低的 API 费用,尤其是在使用按 token 计费的 LLM 服务时。
- 更好的多步推理: 需要深入调查的应用——例如法律文档分析、科学文献综述或复杂系统故障排除——可受益于在迭代过程中进行 反思 与 重新规划 的能力。
- 小模型微调方案: 没有 GPT‑4 访问权限的团队仍可通过将 RE‑TRAC‑aware 监督微调流水线应用于自己的开源模型,获得大部分收益。
- 即插即用的架构: 压缩模块可以替换为任意编码器(例如轻量级 T5),条件化仅需将状态拼接到提示中,使其在现有 ReAct‑style 流程中集成变得简洁明了。
限制与未来工作
- 压缩保真度: 结构化状态是有损的摘要;关键细微差别可能被省略,导致后续轮次出现偏差。
- 固定轮次预算: 当前设置使用预先确定的迭代次数;自适应停止准则有望提升效率。
- 领域通用性: 实验聚焦于网页搜索任务;尚需观察 RE‑TRAC 在非文本工具链(如代码执行、机器人控制)中的表现。
- 状态表示的可扩展性: 虽然 200‑300 个 token 对 BrowseComp 足够,但更复杂的领域可能需要更丰富的表示,这对小模型的上下文窗口限制构成挑战。
未来研究方向 包括学习 动态压缩 策略、探索 层次化状态表示,以及将 RE‑TRAC 扩展到 多模态代理,使其能够在文本之外对视觉或听觉观察进行摘要。
结论: RE‑TRAC 为现有 LLM 驱动的代理提供了一种务实、低开销的升级方案,将线性搜索转变为具备全局感知的反思过程,在提升成功率的同时降低成本——这对开发者以及依赖自主信息收集系统的组织而言都是双赢。
作者
- Jialiang Zhu
- Gongrui Zhang
- Xiaolong Ma
- Lin Xu
- Miaosen Zhang
- Ruiqi Yang
- Song Wang
- Kai Qiu
- Zhirong Wu
- Qi Dai
- Ruichun Ma
- Bei Liu
- Yifan Yang
- Chong Luo
- Zhengyuan Yang
- Linjie Li
- Lijuan Wang
- Weizhu Chen
- Xin Geng
- Baining Guo
论文信息
- arXiv ID: 2602.02486v1
- 分类: cs.CL, cs.AI
- 出版日期: 2026年2月2日
- PDF: 下载 PDF