[Paper] LongSeeker:用于长视野搜索代理的弹性上下文编排
发布: (2026年5月7日 GMT+8 01:54)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.05191v1
概览
LongSeeker 解决了自主搜索代理的一个核心瓶颈:在它们进行探索、推理和调用工具的过程中,内部的“工作记忆”可能会膨胀,导致推理成本升高并产生更多幻觉。作者提出了一种 elastic context orchestration 框架,使代理能够根据当前相关性动态压缩、修剪或扩展其记忆,从而在大幅降低开销的情况下,实现可靠的长时程搜索。
关键贡献
- Context‑ReAct范式 – 一个统一的循环,通过五个原子操作将推理、工具使用和上下文管理耦合在一起:Skip, Compress, Rollback, Snippet, Delete。
- 表达完整性证明针对
Compress操作,展示任意上下文转换都可以使用它来表示。 - 效率与保真度保证针对专用操作,降低 token 使用和幻觉风险,同时不牺牲答案质量。
- LongSeeker代理 – 基于 Qwen3‑30B‑A3B 的模型,在 10 k 合成的长时程搜索轨迹上微调,实现 Context‑ReAct。
- 显著的实证提升在四个搜索基准上(例如 BrowseComp 上 61.5 % 对比 43.2 %),展示自适应上下文处理的实际价值。
方法论
- 问题框定 – 作者将一次搜索过程视为一系列 状态(观察、工具调用、推理步骤)。逐字保留每个状态很快会超出 token 限制。
- Elastic context operations
- Skip:在生成下一个动作时忽略不相关的过去步骤。
- Compress:用简明摘要替换子轨迹,同时保留逻辑依赖。
- Rollback:回到更早的状态以探索替代分支。
- Snippet:提取聚焦片段(例如关键证据)以保存在记忆中。
- Delete:永久删除死胡同分支。
- Context‑ReAct loop – 在每一步,代理通过轻量策略网络决定要应用的操作,然后使用新形成的上下文继续推理或调用工具。
- Training data – 生成了 10 k 条合成轨迹,使用展示五种操作最佳使用方式的“教师”规划器。LongSeeker 在这些数据上进行微调,学习何时以及如何重塑记忆。
- Evaluation – 基准包括多轮网页浏览、事实查找和多语言搜索任务。指标侧重于任务成功率和 token 消耗。
结果与发现
| Benchmark | LongSeeker | Tongyi DeepResearch | AgentFold |
|---|---|---|---|
| BrowseComp (EN) | 61.5 % | 43.2 % | 36.2 % |
| BrowseComp‑ZH (CN) | 62.5 % | 46.7 % | 47.3 % |
| Additional two benchmarks (not listed) | Consistently +15‑20 % over baselines | – | – |
- Token 节省:平均而言,LongSeeker 将上下文大小降低约 30 %,相较于“全部保留”的朴素基线,直接降低推理成本。
- 幻觉降低:通过 Snippet/Compress 进行的证据选择性保留,使人为评估中的事实错误减少约 40 %。
- 对分支的鲁棒性:Rollback 操作符使代理能够从死胡同回溯,而无需重新处理整个历史,从而提升在需要试错探索的任务上的成功率。
Practical Implications
- Cost‑effective agents – 开发者构建基于 LLM 的助手(例如研究机器人、代码搜索工具)时,可以采用 Context‑ReAct 以保持在 token 限制内,从而降低大模型部署成本。
- Improved reliability – 通过仅在记忆中保留最相关的证据,代理更不容易产生过时或不相关的幻觉事实——这对金融或医疗等合规要求高的领域至关重要。
- Modular integration – 这五个操作符友好于 API;现有的工具调用框架(LangChain、LlamaIndex)可以将它们包装在 LLM 调用循环中,为开发者提供对记忆的细粒度控制,而无需重新训练基础模型。
- Better multi‑turn UX – 对于基于聊天的搜索助手,弹性上下文意味着系统能够记住之前的对话线程,同时丢弃噪声,从而带来更流畅、更连贯的用户体验。
限制与未来工作
- 合成训练数据 – 这 10 k 条轨迹由规划器生成,可能无法捕捉真实用户行为的所有细微差别;在真正嘈杂、由人类生成的会话上的表现仍需验证。
- 操作符选择开销 – 决定使用哪种操作会增加一个小的推理步骤;将此决策策略扩展到极长的会话(>10 k tokens)可能成为瓶颈。
- 跨领域泛化 – 虽然基准覆盖了网页搜索和多语言任务,但尚不清楚 Context‑ReAct 在没有特定领域微调的情况下,能否良好迁移到结构化程度极高的领域(如代码库、科学文献)。
- 未来方向 作者提出的包括使用强化学习端到端学习操作符策略、将框架扩展到多代理协作,以及探索层次化压缩方案以实现更深层次的上下文缩减。
作者
- Yijun Lu
- Rui Ye
- Yuwen Du
- Jiajun Wang
- Songhua Liu
- Siheng Chen
论文信息
- arXiv ID: 2605.05191v1
- 分类: cs.AI
- 发表时间: 2026年5月6日
- PDF: 下载 PDF