[Paper] GUI‑Libra:训练原生 GUI 代理以推理和行动,采用动作感知监督和部分可验证的 RL
发布: (2026年2月26日 GMT+8 02:34)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.22190v1
概述
GUI‑Libra 解决了开源与专有 GUI‑自动化代理之间的长期鸿沟,尤其是在多步骤网页或移动工作流等长时程任务上。通过重新设计数据管道以及微调/强化学习阶段,作者展示了本地代理能够在无需大量在线交互数据的情况下,实现显著更高的成功率。
关键贡献
- 策划的推理数据集:81 K 高质量的“先推理后行动”示例,针对网页和移动 GUI,使用系统化的构建与过滤流水线构建。
- 动作感知的监督微调 (SFT):一种混合数据策略,将纯推理轨迹与直接行动示例相结合,并使用 token 级别的重新加权,迫使模型关注动作的落地。
- 在部分可验证性下的稳定 RL:为 RL‑with‑verification‑reward (RLVR) 循环引入 KL 正则化的信任域,并加入成功自适应梯度缩放,在环境模糊时降低噪声负更新的权重。
- 实证验证:在多个公开的网页自动化(如 MiniWoB)和移动自动化基准上实现一致提升,提升逐步准确率和端到端任务完成率。
- 开放资源:向社区发布 81 K 数据集、训练代码和预训练模型。
方法论
-
数据构建与过滤
- 从现有 GUI 代理和人工演示中收集原始交互日志。
- 应用启发式过滤(动作‑标记一致性、语言流畅度、去重),仅保留自然语言推理与随后 UI 动作紧密对应的轨迹。
- 结果:一个干净、多样的语料库,覆盖广泛的 UI 元素(按钮、下拉框、手势等)。
-
动作感知的监督微调
- 与纯链式思考(CoT)提示不同,训练混合包括:
- 推理‑后‑动作 示例(文本推理后跟随确切的 UI 命令)。
- 直接‑动作 示例(无推理,仅提供正确的 UI 命令)。
- 在 token 级别的损失重新加权,放大对动作标记和 UI 标识符的梯度,鼓励模型在保持推理的同时保持落地。
- 与纯链式思考(CoT)提示不同,训练混合包括:
-
带部分可验证性的强化学习 (RLVR)
- 传统的逐步 RL 将单一示范动作视为唯一“正确”动作,即使实际上可能有多种有效动作。这导致 部分可验证性 问题,削弱离线指标。
- GUI‑Libra 添加了 KL 正则化项,惩罚策略偏离 SFT 基线过远,有效形成信任域。
- 成功自适应缩放因子 监控在线回合结果;当代理成功时,来自不匹配动作的负梯度被削弱,防止对其他有效动作的过度惩罚。
-
训练流水线
- 第 1 阶段:在精心挑选的 81 K 数据集上进行动作感知的 SFT。
- 第 2 阶段:在少量离线轨迹上进行 KL 正则化的 RLVR,随后进行简短的在线微调(可选)以提升性能。
结果与发现
| 基准 | 基线 (SFT‑only) | GUI‑Libra (SFT + RLVR) | ↑ 端到端成功率 |
|---|---|---|---|
| MiniWoB(网页) | 48 % | 66 % | +18 pp |
| Mobile‑Env(Android) | 42 % | 61 % | +19 pp |
| 逐步准确率(平均) | 71 % | 84 % | +13 pp |
- 离线指标变得具有预测性:KL 正则化的 RLVR 与在线成功率高度相关 (ρ ≈ 0.78),修复了先前工作中观察到的“部分可验证性”断层。
- 消融研究 表明,去除动作感知的 token 重加权或 KL 信任域任一都会导致性能下降约 7‑9 pp,确认了每个组件的必要性。
- 数据效率:仅使用约 10 K 额外的微调步骤,模型即可匹配或超越需要数百万在线交互的闭源基线。
实际意义
- 更快的 UI 机器人原型制作:开发者现在可以在发布的 81 K 数据集上微调预训练语言模型,并在几小时内获得一个胜任的 GUI 代理,而不必花费数周进行昂贵的数据收集。
- 更可靠的自动化脚本:具备动作感知的 SFT 能减少“幻觉点击”,即模型推理正确但发出超出范围的 UI 命令,这在当前开源代理中是常见的痛点。
- 更安全的 RL 部署:KL 信任域充当内置安全机制,防止策略在在线学习期间采取极端探索(甚至可能破坏性)的动作——这对无法容忍 UI 崩溃的生产环境至关重要。
- 跨平台适用性:由于数据集涵盖了网页和移动端交互,同一微调流水线可复用于桌面、网页或移动自动化工具,降低了多平台机器人的使用门槛。
限制与未来工作
- 部分可验证性仍依赖单一示例动作;虽然 KL 正则化缓解了该问题,但真正的多模态验证(例如使用 UI 状态等价类)仍未探索。
- 数据集偏差:精心挑选的 81 K 示例来源于有限的流行应用和网站;在小众或高度动态的 UI 上性能可能下降。
- RLVR 的可扩展性:当前的 RL 循环离线负担较重;将其扩展到大规模、设备端学习(例如边缘移动代理)将需要更高效的信用分配方法。
- 用户意图处理:本工作假设自然语言目标明确;整合模糊或多意图查询是一个开放的研究方向。
GUI‑Libra 展示了通过精心的数据策划和训练配方可以弥合开源 GUI 代理的性能差距,为渴望构建可靠、具备推理能力的自动化工具的开发者提供了实用的路线图。
作者
- Rui Yang
- Qianhui Wu
- Zhaoyang Wang
- Hanyang Chen
- Ke Yang
- Hao Cheng
- Huaxiu Yao
- Baoling Peng
- Huan Zhang
- Jianfeng Gao
- Tong Zhang
论文信息
- arXiv ID: 2602.22190v1
- 分类: cs.LG, cs.AI, cs.CL
- 发表时间: 2026年2月25日
- PDF: 下载 PDF