[Paper] DynaWeb:基于模型的强化学习 Web 代理
发布: (2026年1月30日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2601.22149v1
Overview
本文提出了 DynaWeb,一种基于模型的强化学习(MBRL)框架,使自主网页代理能够通过“想象”与模拟网页环境的交互来学习,而不是不断访问真实的互联网。通过训练世界模型预测来自代理动作的真实网页状态,DynaWeb 能生成海量合成经验,显著降低传统在线强化学习在网页自动化中的成本、延迟和安全风险。
关键贡献
- World‑model for the web: 引入一种神经“网页模拟器”,能够在代理行为的条件下预测自然的页面表示,将开放世界的网页转化为可控的训练沙盒。
- Dream‑based policy learning: 利用模拟器生成无限的 rollout 轨迹(“梦境”),实现高效的 on‑policy 强化学习,无需昂贵的真实查询。
- Hybrid data mixing: 随机交叉真实专家轨迹(来自现有数据集)与模拟 rollout,提升稳定性和样本效率。
- Empirical validation: 在两个高要求基准——WebArena 和 WebVoyager——上相较于强大的开源基线表现出持续的性能提升。
- Scalable training pipeline: 证明基于模型的强化学习能够扩展到现代网页任务的复杂性,为大规模、成本有效的网页代理开发开辟道路。
方法论
- 数据收集 – 从现有的网页自动化数据集收集专家演示(动作‑页面对)语料库。
- 世界模型训练 – 训练一个基于 Transformer 的编码器‑解码器,它接受当前页面表示和代理动作,预测下一页面的 DOM/文本嵌入。模型通过重构损失(匹配真实页面)和对比目标(保持嵌入的判别性)进行优化。
- 策略架构 – 使用标准的 LLM‑支持策略(例如,微调的 GPT‑Neo),将当前页面嵌入和任务描述映射到下一动作(点击、输入、滚动等)。
- 梦境回滚 – 在强化学习过程中,策略与世界模型交互,而不是实时网页。每一步将预测的页面反馈给策略,产生成本几乎为零的长模拟轨迹。
- 混合回放缓冲区 – 维护一个回放缓冲区,存储真实专家轨迹和模拟轨迹。每次训练迭代时,随机小批量混合两种来源,确保策略不会偏离现实太远。
- 在线 RL 循环 – 在混合缓冲区上应用标准的在策略算法(例如 PPO),在更新策略参数的同时,定期用新收集的真实交互刷新世界模型,以防止模型漂移。
Results & Findings
| 基准 | 基线(开源) | DynaWeb(我们的) | 相对提升 ↑ |
|---|---|---|---|
| WebArena(任务成功率 %) | 42.3% | 58.7% | +16.4 pts |
| WebVoyager(任务成功率 %) | 35.1% | 51.2% | +16.1 pts |
| 样本效率(达到 50% 成功率的回合数) | ~1200 | ~420 | ~65% 减少 |
| 训练成本(GPU‑小时) | 96 | 38 | ~60% 节省 |
解释:通过将真实经验与高质量的模拟回滚相结合,DynaWeb 在取得更高成功率的同时,仅需约三分之一的实际网页交互次数。两项基准的提升均保持一致,验证了世界模型已捕获足够的网页动态,以对策略学习产生实际帮助。
实际意义
- 成本效益高的代理开发 – 公司可以在不产生巨额 API 费用或带宽使用的情况下,训练复杂的网页自动化机器人。
- 安全与合规 – 模拟部署可避免在学习阶段出现意外的数据泄露、垃圾信息或违反服务条款的情况。
- 快速原型制作 – 开发者只需在现有世界模型上重新训练策略,即可对新任务规范(例如新的表单填写流程)进行迭代,将交付周期从数周缩短至数天。
- 可扩展的强化学习流水线 – DynaWeb 架构自然融入现有的 RL‑as‑a‑service 体系(如 Ray RLlib),实现数千个并行代理的云原生训练。
- “代理型”大语言模型的基础 – 通过提供低成本、高保真度的沙盒环境,DynaWeb 为未来能够在网页任务上自我改进且无需人工监督的大语言模型驱动助手铺平道路。
限制与未来工作
- 世界模型保真度 – 模拟器仍然在高度动态的内容上表现困难(例如实时股票行情、CAPTCHA 验证),这些场景中视觉线索占主导。
- 领域迁移 – 在大量模拟数据上训练的策略可能在结构上与训练语料库完全不同的全新网站上表现不佳。
- 模型可扩展性 – 在整个不断变化的互联网中训练世界模型需要持续更新;当前方法依赖于网页的静态快照。
- 未来方向 – 作者们建议融合多模态感知(渲染的截图)、持续的世界模型适应,以及能够在多个站点上进行更长时域规划的层次化策略。
底线:DynaWeb 表明,“通过想象训练网页代理”不仅是研究好奇心——它是一种实用且可扩展的策略,能够显著降低开发者构建自主、LLM 驱动的网页助手的门槛。
作者
- Hang Ding
- Peidong Liu
- Junqiao Wang
- Ziwei Ji
- Meng Cao
- Rongzhao Zhang
- Lynn Ai
- Eric Yang
- Tianyu Shi
- Lei Yu
论文信息
- arXiv ID: 2601.22149v1
- 分类: cs.CL, cs.AI
- 出版时间: 2026年1月29日
- PDF: 下载 PDF