[论文] Prune4Web：用于网页代理的 DOM 树剪枝编程

发布: 2个月前 (2025年11月26日 GMT+8 21:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21398v1

概览

基于大语言模型（LLM）的网页自动化代理在面对当今庞大的网页时仍会卡顿——DOM 树可能包含数万节点。Prune4Web 颠覆了这一思路：它不让 LLM 读取完整的 DOM，而是让模型生成一段简短的 Python “过滤脚本”，程序化地将树裁剪到当前子任务所需的元素。这样大幅提升了速度，并显著提高了定位准确性，使基于 LLM 的代理在真实网页任务中更加实用。

主要贡献

DOM 树裁剪编程：一种新范式，LLM 生成可执行的 Python 打分脚本，根据分解后的子任务的语义线索过滤 DOM 元素。
两轮对话训练：在统一框架下联合优化 Planner（任务分解）、Programmatic Filter（裁剪脚本）和 Grounder（动作选择）。
高效标注流水线：定制的数据创建过程，为裁剪脚本和定位决策提供高质量监督。
可扩展的缩减：实现了 25×–50× 的候选 DOM 节点压缩，显著降低 LLM 的注意力负担。
领先的性能：在作者自建基准上，将低层定位准确率从 46.8 % 提升至 88.28 %，超越以往基于 LLM 的网页代理。

方法论

任务分解（Planner） – LLM 首先将高级用户请求（例如 “预订机票”）拆解为一系列具体子任务（例如 “点击日期选择器”、 “选择目的地”）。
程序生成（Programmatic Filter） – 对每个子任务，同一 LLM 输出一段简短的 Python 脚本，使用轻量启发式（文本相似度、属性模式、CSS 类等）为每个 DOM 节点打分。脚本返回一个“相关”元素的排序列表。
裁剪执行 – 生成的脚本在原始 DOM 外部运行，丢弃绝大多数节点，仅保留几百个候选。
定位（Grounder） – 第二次 LLM 读取裁剪后的候选集合以及子任务描述，选择要交互的具体元素（点击、输入等）。
两轮对话 – 系统循环：Planner 提出下一个子任务，Filter 裁剪，Grounder 执行，反馈（成功/失败）被送回下一轮，使模型能够即时优化脚本。

所有组件在一个精心策划的网页自动化剧集数据集上端到端训练，结合监督信号（正确脚本、正确定位）和来自执行结果的强化式反馈。

结果与发现

指标	基线（仅 LLM）	Prune4Web
低层定位准确率	46.8 %	88.28 %
每步平均候选 DOM 节点数	~30 k	~600（≈ 25×–50× 缩减）
端到端任务成功率（复杂多步）	31 %	57 %
每步推理延迟	2.8 s	0.4 s

意义：通过将 DOM 遍历交给小型 Python 脚本，LLM 能将注意力集中在页面的紧凑、语义丰富子集上，消除了此前导致误定位的“注意力稀释”。准确率的大幅提升表明裁剪后的视图不仅更小，而且 更相关。

实际意义

更快的网页机器人 – 开发者可将 Prune4Web 嵌入现有自动化流水线（如 Selenium、Playwright），在不牺牲可靠性的前提下实现数量级的加速。
降低计算成本 – 减少输入 LLM 的 token 数量可降低 API 调用和 GPU 内存占用，使大规模部署（如 SaaS UI 自动化）在经济上更可行。
可解释的过滤器 – 生成的 Python 脚本可读性强，便于调试和合规检查（例如确保机器人永不点击隐藏广告）。
即插即用，兼容任意 LLM – 方法与模型无关，任何指令遵循型 LLM 都可用于生成过滤脚本，为开源替代方案打开了大门。
对页面膨胀的鲁棒性 – 现代 Web 应用（单页框架、无限滚动）常导致 DOM 膨胀；Prune4Web 的裁剪在任意规模下均有效，提升了电商、金融科技和内部仪表盘等场景的可靠性。

局限性与未来工作

脚本生成错误 – 有时 LLM 会输出语法无效或过于宽松的 Python 过滤器，需要回退或重试机制。
领域特定启发式 – 当前的打分函数较为通用；针对特定站点（如基于 canvas 的 UI）可能需要自定义原语。
训练数据覆盖度 – 标注流水线聚焦于精选的网页任务；要覆盖整个 Web 的多样性，需要更大、可能半自动化的数据集。
动态内容 – 快速变化的 DOM（如实时信息流）可能使已生成的过滤器失效；未来工作可探索增量重新裁剪或持续脚本适配。

总体而言，Prune4Web 证明了将繁重的 DOM 处理从 LLM 的“大脑”迁移到轻量、可解释的程序中，是网页自动化代理的游戏规则改变者，为更快、更廉价、更可信的 AI 驱动浏览器奠定了基础。

作者

Jiayuan Zhang
Kaiquan Chen
Zhihao Lu
Enshen Zhou
Qian Yu
Jing Zhang

论文信息

arXiv ID: 2511.21398v1
分类: cs.AI, cs.CL, cs.HC, cs.MA
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

[论文] Prune4Web：用于网页代理的 DOM 树剪枝编程

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文