[论文] Prune4Web:用于网页代理的 DOM 树剪枝编程
发布: (2025年11月26日 GMT+8 21:49)
7 min read
原文: arXiv
Source: arXiv - 2511.21398v1
概览
基于大语言模型(LLM)的网页自动化代理在面对当今庞大的网页时仍会卡顿——DOM 树可能包含数万节点。Prune4Web 颠覆了这一思路:它不让 LLM 读取完整的 DOM,而是让模型生成一段简短的 Python “过滤脚本”,程序化地将树裁剪到当前子任务所需的元素。这样大幅提升了速度,并显著提高了定位准确性,使基于 LLM 的代理在真实网页任务中更加实用。
主要贡献
- DOM 树裁剪编程:一种新范式,LLM 生成可执行的 Python 打分脚本,根据分解后的子任务的语义线索过滤 DOM 元素。
- 两轮对话训练:在统一框架下联合优化 Planner(任务分解)、Programmatic Filter(裁剪脚本)和 Grounder(动作选择)。
- 高效标注流水线:定制的数据创建过程,为裁剪脚本和定位决策提供高质量监督。
- 可扩展的缩减:实现了 25×–50× 的候选 DOM 节点压缩,显著降低 LLM 的注意力负担。
- 领先的性能:在作者自建基准上,将低层定位准确率从 46.8 % 提升至 88.28 %,超越以往基于 LLM 的网页代理。
方法论
- 任务分解(Planner) – LLM 首先将高级用户请求(例如 “预订机票”)拆解为一系列具体子任务(例如 “点击日期选择器”、 “选择目的地”)。
- 程序生成(Programmatic Filter) – 对每个子任务,同一 LLM 输出一段简短的 Python 脚本,使用轻量启发式(文本相似度、属性模式、CSS 类等)为每个 DOM 节点打分。脚本返回一个“相关”元素的排序列表。
- 裁剪执行 – 生成的脚本在原始 DOM 外部运行,丢弃绝大多数节点,仅保留几百个候选。
- 定位(Grounder) – 第二次 LLM 读取裁剪后的候选集合以及子任务描述,选择要交互的具体元素(点击、输入等)。
- 两轮对话 – 系统循环:Planner 提出下一个子任务,Filter 裁剪,Grounder 执行,反馈(成功/失败)被送回下一轮,使模型能够即时优化脚本。
所有组件在一个精心策划的网页自动化剧集数据集上端到端训练,结合监督信号(正确脚本、正确定位)和来自执行结果的强化式反馈。
结果与发现
| 指标 | 基线(仅 LLM) | Prune4Web |
|---|---|---|
| 低层定位准确率 | 46.8 % | 88.28 % |
| 每步平均候选 DOM 节点数 | ~30 k | ~600(≈ 25×–50× 缩减) |
| 端到端任务成功率(复杂多步) | 31 % | 57 % |
| 每步推理延迟 | 2.8 s | 0.4 s |
意义:通过将 DOM 遍历交给小型 Python 脚本,LLM 能将注意力集中在页面的紧凑、语义丰富子集上,消除了此前导致误定位的“注意力稀释”。准确率的大幅提升表明裁剪后的视图不仅更小,而且 更相关。
实际意义
- 更快的网页机器人 – 开发者可将 Prune4Web 嵌入现有自动化流水线(如 Selenium、Playwright),在不牺牲可靠性的前提下实现数量级的加速。
- 降低计算成本 – 减少输入 LLM 的 token 数量可降低 API 调用和 GPU 内存占用,使大规模部署(如 SaaS UI 自动化)在经济上更可行。
- 可解释的过滤器 – 生成的 Python 脚本可读性强,便于调试和合规检查(例如确保机器人永不点击隐藏广告)。
- 即插即用,兼容任意 LLM – 方法与模型无关,任何指令遵循型 LLM 都可用于生成过滤脚本,为开源替代方案打开了大门。
- 对页面膨胀的鲁棒性 – 现代 Web 应用(单页框架、无限滚动)常导致 DOM 膨胀;Prune4Web 的裁剪在任意规模下均有效,提升了电商、金融科技和内部仪表盘等场景的可靠性。
局限性与未来工作
- 脚本生成错误 – 有时 LLM 会输出语法无效或过于宽松的 Python 过滤器,需要回退或重试机制。
- 领域特定启发式 – 当前的打分函数较为通用;针对特定站点(如基于 canvas 的 UI)可能需要自定义原语。
- 训练数据覆盖度 – 标注流水线聚焦于精选的网页任务;要覆盖整个 Web 的多样性,需要更大、可能半自动化的数据集。
- 动态内容 – 快速变化的 DOM(如实时信息流)可能使已生成的过滤器失效;未来工作可探索增量重新裁剪或持续脚本适配。
总体而言,Prune4Web 证明了将繁重的 DOM 处理从 LLM 的“大脑”迁移到轻量、可解释的程序中,是网页自动化代理的游戏规则改变者,为更快、更廉价、更可信的 AI 驱动浏览器奠定了基础。
作者
- Jiayuan Zhang
- Kaiquan Chen
- Zhihao Lu
- Enshen Zhou
- Qian Yu
- Jing Zhang
论文信息
- arXiv ID: 2511.21398v1
- 分类: cs.AI, cs.CL, cs.HC, cs.MA
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF