[Paper] LongSeeker：用于长视野搜索代理的弹性上下文编排

发布: 4天前 (2026年5月7日 GMT+8 01:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.05191v1

概览

LongSeeker 解决了自主搜索代理的一个核心瓶颈：在它们进行探索、推理和调用工具的过程中，内部的“工作记忆”可能会膨胀，导致推理成本升高并产生更多幻觉。作者提出了一种 elastic context orchestration 框架，使代理能够根据当前相关性动态压缩、修剪或扩展其记忆，从而在大幅降低开销的情况下，实现可靠的长时程搜索。

关键贡献

Context‑ReAct范式 – 一个统一的循环，通过五个原子操作将推理、工具使用和上下文管理耦合在一起：Skip, Compress, Rollback, Snippet, Delete。
表达完整性证明针对 Compress 操作，展示任意上下文转换都可以使用它来表示。
效率与保真度保证针对专用操作，降低 token 使用和幻觉风险，同时不牺牲答案质量。
LongSeeker代理 – 基于 Qwen3‑30B‑A3B 的模型，在 10 k 合成的长时程搜索轨迹上微调，实现 Context‑ReAct。
显著的实证提升在四个搜索基准上（例如 BrowseComp 上 61.5 % 对比 43.2 %），展示自适应上下文处理的实际价值。

方法论

问题框定 – 作者将一次搜索过程视为一系列状态（观察、工具调用、推理步骤）。逐字保留每个状态很快会超出 token 限制。
Elastic context operations
- Skip：在生成下一个动作时忽略不相关的过去步骤。
- Compress：用简明摘要替换子轨迹，同时保留逻辑依赖。
- Rollback：回到更早的状态以探索替代分支。
- Snippet：提取聚焦片段（例如关键证据）以保存在记忆中。
- Delete：永久删除死胡同分支。
Context‑ReAct loop – 在每一步，代理通过轻量策略网络决定要应用的操作，然后使用新形成的上下文继续推理或调用工具。
Training data – 生成了 10 k 条合成轨迹，使用展示五种操作最佳使用方式的“教师”规划器。LongSeeker 在这些数据上进行微调，学习何时以及如何重塑记忆。
Evaluation – 基准包括多轮网页浏览、事实查找和多语言搜索任务。指标侧重于任务成功率和 token 消耗。

结果与发现

Benchmark	LongSeeker	Tongyi DeepResearch	AgentFold
BrowseComp (EN)	61.5 %	43.2 %	36.2 %
BrowseComp‑ZH (CN)	62.5 %	46.7 %	47.3 %
Additional two benchmarks (not listed)	Consistently +15‑20 % over baselines	–	–

Token 节省：平均而言，LongSeeker 将上下文大小降低约 30 %，相较于“全部保留”的朴素基线，直接降低推理成本。
幻觉降低：通过 Snippet/Compress 进行的证据选择性保留，使人为评估中的事实错误减少约 40 %。
对分支的鲁棒性：Rollback 操作符使代理能够从死胡同回溯，而无需重新处理整个历史，从而提升在需要试错探索的任务上的成功率。

Practical Implications

Cost‑effective agents – 开发者构建基于 LLM 的助手（例如研究机器人、代码搜索工具）时，可以采用 Context‑ReAct 以保持在 token 限制内，从而降低大模型部署成本。
Improved reliability – 通过仅在记忆中保留最相关的证据，代理更不容易产生过时或不相关的幻觉事实——这对金融或医疗等合规要求高的领域至关重要。
Modular integration – 这五个操作符友好于 API；现有的工具调用框架（LangChain、LlamaIndex）可以将它们包装在 LLM 调用循环中，为开发者提供对记忆的细粒度控制，而无需重新训练基础模型。
Better multi‑turn UX – 对于基于聊天的搜索助手，弹性上下文意味着系统能够记住之前的对话线程，同时丢弃噪声，从而带来更流畅、更连贯的用户体验。

限制与未来工作

合成训练数据 – 这 10 k 条轨迹由规划器生成，可能无法捕捉真实用户行为的所有细微差别；在真正嘈杂、由人类生成的会话上的表现仍需验证。
操作符选择开销 – 决定使用哪种操作会增加一个小的推理步骤；将此决策策略扩展到极长的会话（>10 k tokens）可能成为瓶颈。
跨领域泛化 – 虽然基准覆盖了网页搜索和多语言任务，但尚不清楚 Context‑ReAct 在没有特定领域微调的情况下，能否良好迁移到结构化程度极高的领域（如代码库、科学文献）。
未来方向 作者提出的包括使用强化学习端到端学习操作符策略、将框架扩展到多代理协作，以及探索层次化压缩方案以实现更深层次的上下文缩减。

作者

Yijun Lu
Rui Ye
Yuwen Du
Jiajun Wang
Songhua Liu
Siheng Chen

论文信息

arXiv ID: 2605.05191v1
分类: cs.AI
发表时间: 2026年5月6日
PDF: 下载 PDF

[Paper] LongSeeker：用于长视野搜索代理的弹性上下文编排

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择