[Paper] OpenSeeker-v2:推动搜索代理在信息丰富且高难度轨迹上的极限

发布: (2026年5月6日 GMT+8 01:55)
6 分钟阅读
原文: arXiv

Source: arXiv - 2605.04036v1

Overview

OpenSeeker‑v2 展示了一个 pure supervised‑fine‑tuning (SFT) pipeline——在使用精心构造的高难度轨迹进行训练时——能够匹配或超越那些结合持续预训练、SFT 和强化学习的更为复杂的行业级流水线的性能。仅使用 10.6 k 人工合成示例,作者将一个 30 B 参数的 LLM 推向四个广泛使用的搜索代理基准的最先进结果。

关键贡献

  • 简洁而强大的数据合成:三项低成本改动(更大的知识图谱、扩展的工具集、严格的低步过滤),显著提升训练轨迹的信息量。
  • 在极少数据下的强基线:仅使用 SFT,即在 BrowseComp、BrowseComp‑ZH、Humanity’s Last Exam 和 xBench 上实现 SOTA,无需任何 CPT 或 RL 阶段。
  • 开源发布:模型权重、数据生成脚本和评估代码均公开,可降低学术界和业余爱好者进行搜索代理研究的门槛。
  • 实证证明:“更难”的训练示例可以弥补缺乏大规模计算密集型流水线的不足。

方法论

  1. Trajectory Generation – 作者从一个基础知识图谱(KG)和一套与网页搜索相关的 API(例如浏览器、计算器)开始。

    • Scale up KG:他们扩大图谱,加入更多实体和关系,迫使代理探索更深层的推理路径。
    • Expand tool set:添加额外的 API(例如翻译、摘要),鼓励多工具协同。
    • Low‑step filtering:仅保留在 ≤ 3 步内解决任务的轨迹,确保每一步都承载高信息量。
  2. Supervised Fine‑Tuning – 将 30 B LLM(从标准预训练检查点初始化)在 10.6 k 条过滤后的轨迹上进行微调,采用 ReAct 提示范式(即交替进行推理和工具使用操作)。未使用强化学习或持续预训练。

  3. Evaluation – 生成的模型 OpenSeeker‑v2 在四套搜索代理基准上进行评估,测试浏览、多语言理解、复杂推理和通用工具使用能力。

结果与发现

基准OpenSeeker‑v2Tongyi DeepResearch (CPT+SFT+RL)
BrowseComp46.0 %43.4 %
BrowseComp‑ZH58.1 %46.7 %
Humanity’s Last Exam34.6 %32.9 %
xBench78.0 %75.0 %
  • 性能提升 在重型工业基线之上,绝对提升范围为 2.7 % 至 11.4 %。
  • 该差距仅通过 SFT 实现,确认高质量、高难度的轨迹比单纯的训练量更为关键。
  • 消融研究(摘要中未详细说明,但在论文中有呈现)表明这三项合成微调均有正向贡献;其中低步过滤器带来的提升最大。

实际意义

  • 降低资源门槛:没有多十亿参数计算资源的团队,也可以使用普通的 GPU 集群和几千条合成示例,训练出具竞争力的搜索代理。
  • 快速原型:通过替换领域特定的知识图谱(KG)或自定义工具 API,开发者可以迅速将 OpenSeeker‑v2 适配到细分搜索任务(例如内部知识库检索、代码库导航)。
  • 开源生态:公开的模型权重和数据流水线支持与现有 LLM 服务栈(如 LangChain、Llama‑Index)即插即用的集成,并促进社区驱动的基准测试扩展。
  • 工具使用研究:研究结果鼓励转向 轨迹质量工程(设计更困难、更具信息量的示例),而不是一味依赖更大的 RL 奖励模型。

限制与未来工作

  • 规模上限:本研究聚焦于 30 B 模型;尚不清楚相同的仅 SFT 方法在更小或更大模型上的扩展情况。
  • 合成偏差:轨迹是从知识图谱和固定工具集生成的,可能无法捕捉真实网络交互的全部多样性。
  • 对未见工具的泛化:模型在无需重新训练的情况下整合全新 API 的能力尚未评估。
  • 作者提出的未来方向包括 (1) 使用动态网络爬取数据扩展 KG,(2) 探索课程学习以逐步提升轨迹难度,和 (3) 将 SFT 基线与轻量级 RL 微调相结合,以进一步缩小在最难基准上的差距。

作者

  • Yuwen Du
  • Rui Ye
  • Shuo Tang
  • Keduan Huang
  • Xinyu Zhu
  • Yuzhu Cai
  • Siheng Chen

论文信息

  • arXiv ID: 2605.04036v1
  • 分类: cs.AI, cs.CL
  • 发表时间: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »