[Paper] GUI‑Libra:训练原生 GUI 代理以推理和行动,采用动作感知监督和部分可验证的 RL

发布: (2026年2月26日 GMT+8 02:34)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.22190v1

概述

GUI‑Libra 解决了开源与专有 GUI‑自动化代理之间的长期鸿沟,尤其是在多步骤网页或移动工作流等长时程任务上。通过重新设计数据管道以及微调/强化学习阶段,作者展示了本地代理能够在无需大量在线交互数据的情况下,实现显著更高的成功率。

关键贡献

  • 策划的推理数据集:81 K 高质量的“先推理后行动”示例,针对网页和移动 GUI,使用系统化的构建与过滤流水线构建。
  • 动作感知的监督微调 (SFT):一种混合数据策略,将纯推理轨迹与直接行动示例相结合,并使用 token 级别的重新加权,迫使模型关注动作的落地。
  • 在部分可验证性下的稳定 RL:为 RL‑with‑verification‑reward (RLVR) 循环引入 KL 正则化的信任域,并加入成功自适应梯度缩放,在环境模糊时降低噪声负更新的权重。
  • 实证验证:在多个公开的网页自动化(如 MiniWoB)和移动自动化基准上实现一致提升,提升逐步准确率和端到端任务完成率。
  • 开放资源:向社区发布 81 K 数据集、训练代码和预训练模型。

方法论

  1. 数据构建与过滤

    • 从现有 GUI 代理和人工演示中收集原始交互日志。
    • 应用启发式过滤(动作‑标记一致性、语言流畅度、去重),仅保留自然语言推理与随后 UI 动作紧密对应的轨迹。
    • 结果:一个干净、多样的语料库,覆盖广泛的 UI 元素(按钮、下拉框、手势等)。
  2. 动作感知的监督微调

    • 与纯链式思考(CoT)提示不同,训练混合包括:
      • 推理‑后‑动作 示例(文本推理后跟随确切的 UI 命令)。
      • 直接‑动作 示例(无推理,仅提供正确的 UI 命令)。
    • 在 token 级别的损失重新加权,放大对动作标记和 UI 标识符的梯度,鼓励模型在保持推理的同时保持落地。
  3. 带部分可验证性的强化学习 (RLVR)

    • 传统的逐步 RL 将单一示范动作视为唯一“正确”动作,即使实际上可能有多种有效动作。这导致 部分可验证性 问题,削弱离线指标。
    • GUI‑Libra 添加了 KL 正则化项,惩罚策略偏离 SFT 基线过远,有效形成信任域。
    • 成功自适应缩放因子 监控在线回合结果;当代理成功时,来自不匹配动作的负梯度被削弱,防止对其他有效动作的过度惩罚。
  4. 训练流水线

    • 第 1 阶段:在精心挑选的 81 K 数据集上进行动作感知的 SFT。
    • 第 2 阶段:在少量离线轨迹上进行 KL 正则化的 RLVR,随后进行简短的在线微调(可选)以提升性能。

结果与发现

基准基线 (SFT‑only)GUI‑Libra (SFT + RLVR)↑ 端到端成功率
MiniWoB(网页)48 %66 %+18 pp
Mobile‑Env(Android)42 %61 %+19 pp
逐步准确率(平均)71 %84 %+13 pp
  • 离线指标变得具有预测性:KL 正则化的 RLVR 与在线成功率高度相关 (ρ ≈ 0.78),修复了先前工作中观察到的“部分可验证性”断层。
  • 消融研究 表明,去除动作感知的 token 重加权或 KL 信任域任一都会导致性能下降约 7‑9 pp,确认了每个组件的必要性。
  • 数据效率:仅使用约 10 K 额外的微调步骤,模型即可匹配或超越需要数百万在线交互的闭源基线。

实际意义

  • 更快的 UI 机器人原型制作:开发者现在可以在发布的 81 K 数据集上微调预训练语言模型,并在几小时内获得一个胜任的 GUI 代理,而不必花费数周进行昂贵的数据收集。
  • 更可靠的自动化脚本:具备动作感知的 SFT 能减少“幻觉点击”,即模型推理正确但发出超出范围的 UI 命令,这在当前开源代理中是常见的痛点。
  • 更安全的 RL 部署:KL 信任域充当内置安全机制,防止策略在在线学习期间采取极端探索(甚至可能破坏性)的动作——这对无法容忍 UI 崩溃的生产环境至关重要。
  • 跨平台适用性:由于数据集涵盖了网页和移动端交互,同一微调流水线可复用于桌面、网页或移动自动化工具,降低了多平台机器人的使用门槛。

限制与未来工作

  • 部分可验证性仍依赖单一示例动作;虽然 KL 正则化缓解了该问题,但真正的多模态验证(例如使用 UI 状态等价类)仍未探索。
  • 数据集偏差:精心挑选的 81 K 示例来源于有限的流行应用和网站;在小众或高度动态的 UI 上性能可能下降。
  • RLVR 的可扩展性:当前的 RL 循环离线负担较重;将其扩展到大规模、设备端学习(例如边缘移动代理)将需要更高效的信用分配方法。
  • 用户意图处理:本工作假设自然语言目标明确;整合模糊或多意图查询是一个开放的研究方向。

GUI‑Libra 展示了通过精心的数据策划和训练配方可以弥合开源 GUI 代理的性能差距,为渴望构建可靠、具备推理能力的自动化工具的开发者提供了实用的路线图。

作者

  • Rui Yang
  • Qianhui Wu
  • Zhaoyang Wang
  • Hanyang Chen
  • Ke Yang
  • Hao Cheng
  • Huaxiu Yao
  • Baoling Peng
  • Huan Zhang
  • Jianfeng Gao
  • Tong Zhang

论文信息

  • arXiv ID: 2602.22190v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 发表时间: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »