[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

发布: 3天前 (2026年2月26日 GMT+8 02:34)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.22190v1

概述

GUI‑Libra 解决了开源与专有 GUI‑自动化代理之间的长期鸿沟，尤其是在多步骤网页或移动工作流等长时程任务上。通过重新设计数据管道以及微调/强化学习阶段，作者展示了本地代理能够在无需大量在线交互数据的情况下，实现显著更高的成功率。

关键贡献

策划的推理数据集：81 K 高质量的“先推理后行动”示例，针对网页和移动 GUI，使用系统化的构建与过滤流水线构建。
动作感知的监督微调 (SFT)：一种混合数据策略，将纯推理轨迹与直接行动示例相结合，并使用 token 级别的重新加权，迫使模型关注动作的落地。
在部分可验证性下的稳定 RL：为 RL‑with‑verification‑reward (RLVR) 循环引入 KL 正则化的信任域，并加入成功自适应梯度缩放，在环境模糊时降低噪声负更新的权重。
实证验证：在多个公开的网页自动化（如 MiniWoB）和移动自动化基准上实现一致提升，提升逐步准确率和端到端任务完成率。
开放资源：向社区发布 81 K 数据集、训练代码和预训练模型。

方法论

数据构建与过滤
- 从现有 GUI 代理和人工演示中收集原始交互日志。
- 应用启发式过滤（动作‑标记一致性、语言流畅度、去重），仅保留自然语言推理与随后 UI 动作紧密对应的轨迹。
- 结果：一个干净、多样的语料库，覆盖广泛的 UI 元素（按钮、下拉框、手势等）。
动作感知的监督微调
- 与纯链式思考（CoT）提示不同，训练混合包括：
  - 推理‑后‑动作 示例（文本推理后跟随确切的 UI 命令）。
  - 直接‑动作 示例（无推理，仅提供正确的 UI 命令）。
- 在 token 级别的损失重新加权，放大对动作标记和 UI 标识符的梯度，鼓励模型在保持推理的同时保持落地。
带部分可验证性的强化学习 (RLVR)
- 传统的逐步 RL 将单一示范动作视为唯一“正确”动作，即使实际上可能有多种有效动作。这导致 部分可验证性 问题，削弱离线指标。
- GUI‑Libra 添加了 KL 正则化项，惩罚策略偏离 SFT 基线过远，有效形成信任域。
- 成功自适应缩放因子 监控在线回合结果；当代理成功时，来自不匹配动作的负梯度被削弱，防止对其他有效动作的过度惩罚。
训练流水线
- 第 1 阶段：在精心挑选的 81 K 数据集上进行动作感知的 SFT。
- 第 2 阶段：在少量离线轨迹上进行 KL 正则化的 RLVR，随后进行简短的在线微调（可选）以提升性能。

结果与发现

基准	基线 (SFT‑only)	GUI‑Libra (SFT + RLVR)	↑ 端到端成功率
MiniWoB（网页）	48 %	66 %	+18 pp
Mobile‑Env（Android）	42 %	61 %	+19 pp
逐步准确率（平均）	71 %	84 %	+13 pp

离线指标变得具有预测性：KL 正则化的 RLVR 与在线成功率高度相关 (ρ ≈ 0.78)，修复了先前工作中观察到的“部分可验证性”断层。
消融研究 表明，去除动作感知的 token 重加权或 KL 信任域任一都会导致性能下降约 7‑9 pp，确认了每个组件的必要性。
数据效率：仅使用约 10 K 额外的微调步骤，模型即可匹配或超越需要数百万在线交互的闭源基线。

实际意义

更快的 UI 机器人原型制作：开发者现在可以在发布的 81 K 数据集上微调预训练语言模型，并在几小时内获得一个胜任的 GUI 代理，而不必花费数周进行昂贵的数据收集。
更可靠的自动化脚本：具备动作感知的 SFT 能减少“幻觉点击”，即模型推理正确但发出超出范围的 UI 命令，这在当前开源代理中是常见的痛点。
更安全的 RL 部署：KL 信任域充当内置安全机制，防止策略在在线学习期间采取极端探索（甚至可能破坏性）的动作——这对无法容忍 UI 崩溃的生产环境至关重要。
跨平台适用性：由于数据集涵盖了网页和移动端交互，同一微调流水线可复用于桌面、网页或移动自动化工具，降低了多平台机器人的使用门槛。

限制与未来工作

部分可验证性仍依赖单一示例动作；虽然 KL 正则化缓解了该问题，但真正的多模态验证（例如使用 UI 状态等价类）仍未探索。
数据集偏差：精心挑选的 81 K 示例来源于有限的流行应用和网站；在小众或高度动态的 UI 上性能可能下降。
RLVR 的可扩展性：当前的 RL 循环离线负担较重；将其扩展到大规模、设备端学习（例如边缘移动代理）将需要更高效的信用分配方法。
用户意图处理：本工作假设自然语言目标明确；整合模糊或多意图查询是一个开放的研究方向。

GUI‑Libra 展示了通过精心的数据策划和训练配方可以弥合开源 GUI 代理的性能差距，为渴望构建可靠、具备推理能力的自动化工具的开发者提供了实用的路线图。

作者

Rui Yang
Qianhui Wu
Zhaoyang Wang
Hanyang Chen
Ke Yang
Hao Cheng
Huaxiu Yao
Baoling Peng
Huan Zhang
Jianfeng Gao
Tong Zhang

论文信息

arXiv ID: 2602.22190v1
分类: cs.LG, cs.AI, cs.CL
发表时间: 2026年2月25日
PDF: 下载 PDF

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型