[Paper] 嵌套浏览器使用学习用于代理式信息寻求

发布: (2025年12月30日 GMT+8 01:59)
6 min read
原文: arXiv

Source: arXiv - 2512.23647v1

概述

论文 “Nested Browser‑Use Learning for Agentic Information Seeking” 解决了现代 AI 助手的一个实际瓶颈:大多数代理只能通过 API 获取原始片段或 URL,无法获取隐藏在交互式网页背后的丰富信息。通过引入一个轻量级、层次化的浏览器操作框架 NestBrowse,作者使代理能够在高层次上控制浏览,同时深入复杂、动态的网站——为更丰富、更可靠的信息检索能力打开了大门。

关键贡献

  • Nested Browser‑Action API – 一个极简但完整的动作集合,将 control flow(例如 “点击此按钮”)与 content exploration(例如 “滚动并阅读页面”)分离。
  • NestBrowse Learning Paradigm – 训练代理发出嵌套动作,使其能够推理 “何时打开新页面” 与 “如何从当前页面提取数据”。
  • Empirical Validation on Deep‑Web Benchmarks – 在需要多步骤导航、表单填写和分页的任务上,展示了相较传统 ReAct‑style agents 的持续性能提升。
  • Efficiency & Flexibility Analyses – 表明嵌套设计可减少所需的 API 调用次数,并且可以以最小的代码改动嵌入现有基于 LLM 的代理中。

方法论

  1. 动作空间设计

    • 高级动作open_pageclose_page)管理浏览器堆栈。
    • 低级动作clicktypescrollextract)在当前活动页面内执行。
    • 这种嵌套形成 树状 执行轨迹:每打开一个新页面就成为一个子节点,既保留上下文,又保持父节点的推理完整。
  2. 训练循环

    • 作者使用基于规则的“oracle”生成合成浏览轨迹,以解决每个基准任务。
    • 将这些轨迹转换为嵌套动作序列,并喂入标准 LLM(如 GPT‑4)进行监督微调。
    • 推理时,模型预测下一个动作,浏览器模拟器执行该动作,返回简要观察(例如提取的文本、DOM 快照),循环重复。
  3. 评估设置

    • 基准包括 DeepWebQAMulti‑Page RetrievalForm‑Filling Search,每个任务至少需要三步导航并与动态内容交互。
    • 对照组:普通 ReAct 代理(仅 API)、具有平面浏览器动作的工具调用代理,以及手工编写的规则爬虫。

结果与发现

BenchmarkNestBrowseReAct‑APIFlat‑BrowserRule‑Crawler
DeepWebQA78.4 %62.1 %71.3 %55.8 %
Multi‑Page Retrieval84.7 %68.9 %77.5 %61.2 %
Form‑Filling Search81.2 %65.4 %73.0 %58.9 %
  • 更高的准确率,在所有任务中均表现出色,尤其是需要深度导航(>3 次跳转)的情况。
  • 与平面浏览器代理相比,API 调用减少约 30 %,因为嵌套结构避免了冗余的页面重新加载。
  • 对布局变化的鲁棒性:层次化上下文帮助模型在点击后页面 DOM 发生变化时恢复。

实际影响

  • 更强大的 ChatGPT 风格助手 – 开发者现在可以嵌入 NestBrowse 模块,让助手能够“查阅”登录墙后、无限滚动或交互式图表中的信息,从而提供更及时的答案。
  • 企业知识检索 – 需要从传统网页门户(例如工单系统、库存仪表盘)抓取数据的内部工具,可以实现自动化,而无需为每个站点编写自定义爬虫。
  • 降低工程开销 – API 刻意保持精简;将其集成到现有的 LangChain 或 LlamaIndex 流程中,只需少量包装函数。
  • 成本效益 – 更少的浏览器往返意味着计算时间更短,托管 LLM 服务的 API 使用费用也随之降低。

Limitations & Future Work

  • Simulation vs. Real Browsers – 实验在无头 Chromium 模拟器上进行;在高度依赖 JavaScript 的站点(例如 SPA)上的表现可能不同。
  • Scalability of Action Sequences – 非常深的导航树(>10 层)仍可能导致在当前 LLM token 限制下出现上下文溢出。
  • Security & Ethics – 自动浏览会引发对意外抓取受版权保护或私人内容的担忧;作者呼吁使用具备策略感知的动作过滤器。
  • Future directions – 包括将 NestBrowse 扩展到多代理协作(例如,一个代理负责导航,另一个专注于推理),并探索强化学习微调,以降低对合成 oracle 轨迹的依赖。

作者

  • Baixuan Li
  • Jialong Wu
  • Wenbiao Yin
  • Kuan Li
  • Zhongwang Zhang
  • Huifeng Yin
  • Zhengwei Tao
  • Liwen Zhang
  • Pengjun Xie
  • Jingren Zhou
  • Yong Jiang

论文信息

  • arXiv ID: 2512.23647v1
  • 分类: cs.CL, cs.AI, cs.IR, cs.MA
  • 出版日期: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »