[Paper] InfiniteWeb：可扩展的 Web 环境合成用于 GUI 代理训练

发布: 1个月前 (2026年1月8日 GMT+8 01:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.04126v1

请提供您希望翻译的具体文本内容，我将按照要求将其译成简体中文并保留原有的格式。

Overview

本文介绍了 InfiniteWeb，一个能够自动合成大量功能性网站用于训练 GUI 交互代理的框架。通过将网页生成从手动瓶颈转变为可扩展的、测试驱动的过程，作者使强化学习代理能够在真实且多样的界面上进行练习——这一直是构建能够像人类用户一样点击、输入和导航的实用 AI 助手的主要障碍。

自动化网站合成流水线，能够从高级规范生成完整的多页面 Web 应用。
以任务为中心的测试驱动开发：每个生成的网站都包含自动生成的测试套件，作为密集且可验证的奖励信号供强化学习代理使用。
统一的规范语言，捕获页面布局、导航流程和功能需求，使生成过程既确定又多样。
混合种子策略：将文本“种子”描述与参考设计图像相结合，引导视觉多样性，同时保持功能正确性。
实证验证表明 InfiniteWeb 在构建真实网站方面优于商业代码生成工具（如 GitHub Copilot、Claude），并且在其环境上训练的代理在基准 GUI 任务（OSWorld、Online‑Mind2Web）中达到最先进的性能。

Specification Layer – 用户提供简洁的高级规范（例如，“带有产品目录、购物车、结账的电子商务站点”），以及可选的设计模型。规范编码页面层次结构、UI 组件和数据流。
LLM‑Powered Page Generation – 大型语言模型（LLM）将规范展开为每个页面的 HTML/CSS/JS，并依据设计图像来强制视觉风格。
Test‑Driven Synthesis – 对于每个生成的页面，系统自动编写 Selenium 风格的集成测试，覆盖导航、表单提交和数据验证。这些测试有两个作用：(a) 验证站点功能正常，(b) 为强化学习代理提供密集奖励信号（每通过一个测试 = 正向奖励）。
Site Assembly & Consistency Checks – 将各页面链接起来，并使用一致性验证器确保 URL、状态管理和 API 端点在整个站点中保持一致。
Dataset Creation – 通过变换种子文本和设计图像，InfiniteWeb 生成成千上万种不同的网页环境，每个环境都配有对应的测试套件，可直接用于 RL 训练流水线。

生成质量：在与领先的商业编码助手的正面对比评估中，InfiniteWeb 的功能正确性得分提升了 23 %（通过生成的测试套件的通过率衡量），并且生成了风格更为多样的网站。
代理性能：在 InfiniteWeb 生成的网站上预训练的 GUI 代理相比于在现有合成或手工策划环境中训练的代理，在 OSWorld 上的成功率提升 +15 %，在 Online‑Mind2Web 上提升 +12 %。
奖励信号有效性：密集的基于测试的奖励加速了强化学习（RL）训练的收敛，使得达到相当性能所需的环境交互次数约减少 30 %。
可扩展性：该流水线能够在单个 GPU‑enabled 服务器上在 30 秒以内生成并验证一个新网站，从而在有限的计算资源下创建数百万个训练实例。

快速原型开发 AI 助手 – 开发者现在可以快速生成几乎无限的真实网页 UI，用于训练和基准测试自动化任务的代理，例如表单填写、数据提取或电子商务结账。
提升网页自动化工具的测试覆盖率 – 自动生成的测试套件可供 QA 团队重复使用，以对浏览器、无头驱动或可访问性工具进行压力测试。
可定制的训练领域 – 企业可以向 InfiniteWeb 输入特定领域的规范（例如内部仪表盘、SaaS 管理面板），生成私有的高保真环境，而无需暴露真实用户数据。
降低对人工标注数据集的依赖 – 该方法规避了对 UI 元素和交互轨迹进行昂贵的手动标注，为初创公司实验基于强化学习的 UI 代理降低了门槛。

规范表达能力 – 虽然统一规范覆盖了许多常见模式，但高度自定义的 JavaScript 逻辑或复杂的后端集成仍然难以自动捕获。
视觉保真度与功能性取舍 – 当前的图像引导生成侧重于布局相似性；细粒度的像素级完美设计（例如品牌特定的排版）可能仍需手动微调。
安全性与沙箱问题 – 生成的网站会执行任意 JavaScript，因此在将流水线扩展到公共使用时，安全的沙箱隔离至关重要。
未来方向 – 作者计划 (1) 扩展规范语言以描述 API 合约和有状态的后端，(2) 引入多模态 LLM 以实现更丰富的视觉合成，(3) 探索课程学习策略，逐步增加站点复杂度，以实现更稳健的代理训练。