[Paper] 放大,点击退出:解锁并评估 Zooming 在 GUI Grounding 中的潜力

发布: (2025年12月6日 GMT+8 02:39)
7 min read
原文: arXiv

Source: arXiv - 2512.05941v1

概览

本文探讨了一个出乎意料地简单却强大的想法:利用缩放帮助 AI 代理理解图形用户界面(GUI)。通过将缩放视为一种动态的“镜头”,可以聚焦屏幕的不同区域,作者提出了一种无需训练的技术 ZoomClick,显著提升了 GUI 定位能力——即在自然语言中定位用户所指的确切 UI 元素的能力。

关键贡献

  • ZoomClick 框架 – 一种无需训练的方法,利用缩放的四个内在属性(预缩放、深度、收缩尺寸、最小裁剪尺寸)在推理时动态调整焦点和上下文。
  • 性能提升 – 与现有的视觉‑语言和 GUI 专用模型无缝集成,在 UI‑Venus‑72B 等基准上实现了最先进的结果(ScreenSpot‑Pro 上成功率 73.1 %)。
  • GUIZoom‑Bench – 一个全新的基准套件,用于评估模型对缩放输入的适应能力,鼓励在测试时进行尺度扩展和缩放感知训练的研究。
  • 跨平台泛化 – 证明了缩放可以帮助模型在没有额外标注数据的情况下处理多样的 UI 布局(移动端、桌面端、网页端)。

方法论

  1. 缩放特性描述

    • 预缩放:原始的全屏视图。
    • 深度:连续放大步骤的次数。
    • 收缩尺寸:缩小视图时的缩放因子。
    • 最小裁剪尺寸:仍能保留足够视觉上下文的最小区域。
  2. 动态空间聚焦

    • 在推理时,模型接收一系列以候选 UI 元素为中心、逐步放大的裁剪图像。
    • 每个裁剪图像由底层视觉‑语言模型处理;预测结果通过(例如加权投票)方式聚合,得到最终的定位决策。
  3. 自适应上下文切换

    • 若放大裁剪产生模糊结果,系统会自动回退到更高层级(缩放程度更低)的视图,确保考虑足够的周边 UI 上下文。
  4. 无需训练的集成

    • 不需要学习额外参数;ZoomClick 只是一个包装器,可附加到任何现成的定位模型上,立即在现有流水线中使用。

结果与发现

模型(基线)ScreenSpot‑Pro 成功率使用 ZoomClick 后的成功率
UI‑Venus‑72B61.4 %73.1 %(+11.7 pp)
通用视觉‑语言模型(如 CLIP‑based)48.2 %60.5 %(+12.3 pp)
专用 GUI 模型(如 GNN‑UI)55.0 %66.8 %(+11.8 pp)
  • 在移动端、桌面端和网页 UI 数据集上均表现出 一致的提升
  • 对布局变化的鲁棒性:ZoomClick 将在新平台(例如从 Android 到 iOS)测试时的性能下降降低约 40 %。
  • 消融实验表明四个缩放属性均有正向贡献;去除“最小裁剪尺寸”对性能影响最大。

实际意义

  • 即插即用的提升:开发者可以将 ZoomClick 包裹在任何已有的 GUI 自动化或测试工具上,只要该工具使用视觉‑语言模型,即可在无需重新训练的情况下获得更高的准确率。
  • 更好的 UI 测试机器人:自动回归测试能够更可靠地定位按钮、对话框或错误信息,即使 UI 设计随时间演进或在不同设备上有所差异。
  • 辅助技术:屏幕阅读器或语音助手系统能够更精确地将口头指令(如“点击‘保存’按钮”)映射到 UI 元素,提升可访问性。
  • 跨平台 UI 分析:企业可以使用单一模型分析来自异构设备的用户交互日志,得益于缩放对视觉上下文的归一化能力。
  • 资源高效的扩展:由于 ZoomClick 在推理阶段工作,可选择性地(例如仅在查询模糊时)应用,节省相较于全量重新训练的计算成本。

局限性与未来工作

  • 依赖初始候选生成:ZoomClick 假设已有一组合理的 UI 元素提议;若提议质量差仍会限制性能。
  • 延迟开销:处理多个缩放裁剪会增加推理时间(约为单次推理的 2–3 倍),在实时助手场景中可能成为瓶颈。
  • 基准范围:GUIZoom‑Bench 侧重于静态截图;尚未覆盖动态 UI 状态(动画、弹窗等)。

作者建议探索 学习式缩放策略(例如使用强化学习决定何时放大/缩小)并将基准扩展到 交互式会话,其中 UI 元素会随时间出现或消失。

核心结论:ZoomClick 表明,一个简单的、无需训练的缩放策略即可为 GUI 定位带来显著提升,为构建更智能 UI 代理的开发者提供了低成本、实用的升级路径。

作者

  • Zhiyuan Jiang
  • Shenghao Xie
  • Wenyi Li
  • Wenqiang Zu
  • Peihang Li
  • Jiahao Qiu
  • Siqi Pei
  • Lei Ma
  • Tiejun Huang
  • Mengdi Wang
  • Shilong Liu

论文信息

  • arXiv ID: 2512.05941v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发表时间: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »