[Paper] InfiniteWeb:可扩展的 Web 环境合成用于 GUI 代理训练

发布: (2026年1月8日 GMT+8 01:40)
8 min read
原文: arXiv

Source: arXiv - 2601.04126v1

请提供您希望翻译的具体文本内容,我将按照要求将其译成简体中文并保留原有的格式。

Overview

本文介绍了 InfiniteWeb,一个能够自动合成大量功能性网站用于训练 GUI 交互代理的框架。通过将网页生成从手动瓶颈转变为可扩展的、测试驱动的过程,作者使强化学习代理能够在真实且多样的界面上进行练习——这一直是构建能够像人类用户一样点击、输入和导航的实用 AI 助手的主要障碍。

关键贡献

  • 自动化网站合成流水线,能够从高级规范生成完整的多页面 Web 应用。
  • 以任务为中心的测试驱动开发:每个生成的网站都包含自动生成的测试套件,作为密集且可验证的奖励信号供强化学习代理使用。
  • 统一的规范语言,捕获页面布局、导航流程和功能需求,使生成过程既确定又多样。
  • 混合种子策略:将文本“种子”描述与参考设计图像相结合,引导视觉多样性,同时保持功能正确性。
  • 实证验证表明 InfiniteWeb 在构建真实网站方面优于商业代码生成工具(如 GitHub Copilot、Claude),并且在其环境上训练的代理在基准 GUI 任务(OSWorld、Online‑Mind2Web)中达到最先进的性能。

方法论

  1. Specification Layer – 用户提供简洁的高级规范(例如,“带有产品目录、购物车、结账的电子商务站点”),以及可选的设计模型。规范编码页面层次结构、UI 组件和数据流。
  2. LLM‑Powered Page Generation – 大型语言模型(LLM)将规范展开为每个页面的 HTML/CSS/JS,并依据设计图像来强制视觉风格。
  3. Test‑Driven Synthesis – 对于每个生成的页面,系统自动编写 Selenium 风格的集成测试,覆盖导航、表单提交和数据验证。这些测试有两个作用:(a) 验证站点功能正常,(b) 为强化学习代理提供密集奖励信号(每通过一个测试 = 正向奖励)。
  4. Site Assembly & Consistency Checks – 将各页面链接起来,并使用一致性验证器确保 URL、状态管理和 API 端点在整个站点中保持一致。
  5. Dataset Creation – 通过变换种子文本和设计图像,InfiniteWeb 生成成千上万种不同的网页环境,每个环境都配有对应的测试套件,可直接用于 RL 训练流水线。

结果与发现

  • 生成质量:在与领先的商业编码助手的正面对比评估中,InfiniteWeb 的功能正确性得分提升了 23 %(通过生成的测试套件的通过率衡量),并且生成了风格更为多样的网站。
  • 代理性能:在 InfiniteWeb 生成的网站上预训练的 GUI 代理相比于在现有合成或手工策划环境中训练的代理,在 OSWorld 上的成功率提升 +15 %,在 Online‑Mind2Web 上提升 +12 %
  • 奖励信号有效性:密集的基于测试的奖励加速了强化学习(RL)训练的收敛,使得达到相当性能所需的环境交互次数约减少 30 %
  • 可扩展性:该流水线能够在单个 GPU‑enabled 服务器上在 30 秒以内生成并验证一个新网站,从而在有限的计算资源下创建数百万个训练实例。

实际意义

  • 快速原型开发 AI 助手 – 开发者现在可以快速生成几乎无限的真实网页 UI,用于训练和基准测试自动化任务的代理,例如表单填写、数据提取或电子商务结账。
  • 提升网页自动化工具的测试覆盖率 – 自动生成的测试套件可供 QA 团队重复使用,以对浏览器、无头驱动或可访问性工具进行压力测试。
  • 可定制的训练领域 – 企业可以向 InfiniteWeb 输入特定领域的规范(例如内部仪表盘、SaaS 管理面板),生成私有的高保真环境,而无需暴露真实用户数据。
  • 降低对人工标注数据集的依赖 – 该方法规避了对 UI 元素和交互轨迹进行昂贵的手动标注,为初创公司实验基于强化学习的 UI 代理降低了门槛。

限制与未来工作

  • 规范表达能力 – 虽然统一规范覆盖了许多常见模式,但高度自定义的 JavaScript 逻辑或复杂的后端集成仍然难以自动捕获。
  • 视觉保真度与功能性取舍 – 当前的图像引导生成侧重于布局相似性;细粒度的像素级完美设计(例如品牌特定的排版)可能仍需手动微调。
  • 安全性与沙箱问题 – 生成的网站会执行任意 JavaScript,因此在将流水线扩展到公共使用时,安全的沙箱隔离至关重要。
  • 未来方向 – 作者计划 (1) 扩展规范语言以描述 API 合约和有状态的后端,(2) 引入多模态 LLM 以实现更丰富的视觉合成,(3) 探索课程学习策略,逐步增加站点复杂度,以实现更稳健的代理训练。

作者

  • Ziyun Zhang
  • Zezhou Wang
  • Xiaoyi Zhang
  • Zongyu Guo
  • Jiahao Li
  • Bin Li
  • Yan Lu

论文信息

  • arXiv ID: 2601.04126v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 出版日期: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】Web World Models

语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...