[Paper] 嵌套浏览器使用学习用于代理式信息寻求

发布: 1周前 (2025年12月30日 GMT+8 01:59)

6 min read

原文: arXiv

Source: arXiv - 2512.23647v1

概述

论文 “Nested Browser‑Use Learning for Agentic Information Seeking” 解决了现代 AI 助手的一个实际瓶颈：大多数代理只能通过 API 获取原始片段或 URL，无法获取隐藏在交互式网页背后的丰富信息。通过引入一个轻量级、层次化的浏览器操作框架 NestBrowse，作者使代理能够在高层次上控制浏览，同时深入复杂、动态的网站——为更丰富、更可靠的信息检索能力打开了大门。

关键贡献

Nested Browser‑Action API – 一个极简但完整的动作集合，将 control flow（例如 “点击此按钮”）与 content exploration（例如 “滚动并阅读页面”）分离。
NestBrowse Learning Paradigm – 训练代理发出嵌套动作，使其能够推理 “何时打开新页面” 与 “如何从当前页面提取数据”。
Empirical Validation on Deep‑Web Benchmarks – 在需要多步骤导航、表单填写和分页的任务上，展示了相较传统 ReAct‑style agents 的持续性能提升。
Efficiency & Flexibility Analyses – 表明嵌套设计可减少所需的 API 调用次数，并且可以以最小的代码改动嵌入现有基于 LLM 的代理中。

方法论

动作空间设计
- 高级动作（open_page、close_page）管理浏览器堆栈。
- 低级动作（click、type、scroll、extract）在当前活动页面内执行。
- 这种嵌套形成树状执行轨迹：每打开一个新页面就成为一个子节点，既保留上下文，又保持父节点的推理完整。
训练循环
- 作者使用基于规则的“oracle”生成合成浏览轨迹，以解决每个基准任务。
- 将这些轨迹转换为嵌套动作序列，并喂入标准 LLM（如 GPT‑4）进行监督微调。
- 推理时，模型预测下一个动作，浏览器模拟器执行该动作，返回简要观察（例如提取的文本、DOM 快照），循环重复。
评估设置
- 基准包括 DeepWebQA、Multi‑Page Retrieval 和 Form‑Filling Search，每个任务至少需要三步导航并与动态内容交互。
- 对照组：普通 ReAct 代理（仅 API）、具有平面浏览器动作的工具调用代理，以及手工编写的规则爬虫。

结果与发现

Benchmark	NestBrowse	ReAct‑API	Flat‑Browser	Rule‑Crawler
DeepWebQA	78.4 %	62.1 %	71.3 %	55.8 %
Multi‑Page Retrieval	84.7 %	68.9 %	77.5 %	61.2 %
Form‑Filling Search	81.2 %	65.4 %	73.0 %	58.9 %

更高的准确率，在所有任务中均表现出色，尤其是需要深度导航（>3 次跳转）的情况。
与平面浏览器代理相比，API 调用减少约 30 %，因为嵌套结构避免了冗余的页面重新加载。
对布局变化的鲁棒性：层次化上下文帮助模型在点击后页面 DOM 发生变化时恢复。

实际影响

更强大的 ChatGPT 风格助手 – 开发者现在可以嵌入 NestBrowse 模块，让助手能够“查阅”登录墙后、无限滚动或交互式图表中的信息，从而提供更及时的答案。
企业知识检索 – 需要从传统网页门户（例如工单系统、库存仪表盘）抓取数据的内部工具，可以实现自动化，而无需为每个站点编写自定义爬虫。
降低工程开销 – API 刻意保持精简；将其集成到现有的 LangChain 或 LlamaIndex 流程中，只需少量包装函数。
成本效益 – 更少的浏览器往返意味着计算时间更短，托管 LLM 服务的 API 使用费用也随之降低。

Limitations & Future Work

Simulation vs. Real Browsers – 实验在无头 Chromium 模拟器上进行；在高度依赖 JavaScript 的站点（例如 SPA）上的表现可能不同。
Scalability of Action Sequences – 非常深的导航树（>10 层）仍可能导致在当前 LLM token 限制下出现上下文溢出。
Security & Ethics – 自动浏览会引发对意外抓取受版权保护或私人内容的担忧；作者呼吁使用具备策略感知的动作过滤器。
Future directions – 包括将 NestBrowse 扩展到多代理协作（例如，一个代理负责导航，另一个专注于推理），并探索强化学习微调，以降低对合成 oracle 轨迹的依赖。

作者

Baixuan Li
Jialong Wu
Wenbiao Yin
Kuan Li
Zhongwang Zhang
Huifeng Yin
Zhengwei Tao
Liwen Zhang
Pengjun Xie
Jingren Zhou
Yong Jiang

论文信息

arXiv ID: 2512.23647v1
分类: cs.CL, cs.AI, cs.IR, cs.MA
出版日期: 2025年12月29日
PDF: 下载 PDF

[Paper] 嵌套浏览器使用学习用于代理式信息寻求

概述

关键贡献

方法论

结果与发现

实际影响

Limitations & Future Work

作者

论文信息

相关文章

[Paper] FLEx：语言建模与少样本语言解释

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性

[Paper] InfiniteWeb：可扩展的 Web 环境合成用于 GUI 代理训练

[Paper] 层级位置偏置在短上下文语言建模中的研究