[Paper] 放大,点击退出:解锁并评估 Zooming 在 GUI Grounding 中的潜力
发布: (2025年12月6日 GMT+8 02:39)
7 min read
原文: arXiv
Source: arXiv - 2512.05941v1
概览
本文探讨了一个出乎意料地简单却强大的想法:利用缩放帮助 AI 代理理解图形用户界面(GUI)。通过将缩放视为一种动态的“镜头”,可以聚焦屏幕的不同区域,作者提出了一种无需训练的技术 ZoomClick,显著提升了 GUI 定位能力——即在自然语言中定位用户所指的确切 UI 元素的能力。
关键贡献
- ZoomClick 框架 – 一种无需训练的方法,利用缩放的四个内在属性(预缩放、深度、收缩尺寸、最小裁剪尺寸)在推理时动态调整焦点和上下文。
- 性能提升 – 与现有的视觉‑语言和 GUI 专用模型无缝集成,在 UI‑Venus‑72B 等基准上实现了最先进的结果(ScreenSpot‑Pro 上成功率 73.1 %)。
- GUIZoom‑Bench – 一个全新的基准套件,用于评估模型对缩放输入的适应能力,鼓励在测试时进行尺度扩展和缩放感知训练的研究。
- 跨平台泛化 – 证明了缩放可以帮助模型在没有额外标注数据的情况下处理多样的 UI 布局(移动端、桌面端、网页端)。
方法论
-
缩放特性描述
- 预缩放:原始的全屏视图。
- 深度:连续放大步骤的次数。
- 收缩尺寸:缩小视图时的缩放因子。
- 最小裁剪尺寸:仍能保留足够视觉上下文的最小区域。
-
动态空间聚焦
- 在推理时,模型接收一系列以候选 UI 元素为中心、逐步放大的裁剪图像。
- 每个裁剪图像由底层视觉‑语言模型处理;预测结果通过(例如加权投票)方式聚合,得到最终的定位决策。
-
自适应上下文切换
- 若放大裁剪产生模糊结果,系统会自动回退到更高层级(缩放程度更低)的视图,确保考虑足够的周边 UI 上下文。
-
无需训练的集成
- 不需要学习额外参数;ZoomClick 只是一个包装器,可附加到任何现成的定位模型上,立即在现有流水线中使用。
结果与发现
| 模型(基线) | ScreenSpot‑Pro 成功率 | 使用 ZoomClick 后的成功率 |
|---|---|---|
| UI‑Venus‑72B | 61.4 % | 73.1 %(+11.7 pp) |
| 通用视觉‑语言模型(如 CLIP‑based) | 48.2 % | 60.5 %(+12.3 pp) |
| 专用 GUI 模型(如 GNN‑UI) | 55.0 % | 66.8 %(+11.8 pp) |
- 在移动端、桌面端和网页 UI 数据集上均表现出 一致的提升。
- 对布局变化的鲁棒性:ZoomClick 将在新平台(例如从 Android 到 iOS)测试时的性能下降降低约 40 %。
- 消融实验表明四个缩放属性均有正向贡献;去除“最小裁剪尺寸”对性能影响最大。
实际意义
- 即插即用的提升:开发者可以将 ZoomClick 包裹在任何已有的 GUI 自动化或测试工具上,只要该工具使用视觉‑语言模型,即可在无需重新训练的情况下获得更高的准确率。
- 更好的 UI 测试机器人:自动回归测试能够更可靠地定位按钮、对话框或错误信息,即使 UI 设计随时间演进或在不同设备上有所差异。
- 辅助技术:屏幕阅读器或语音助手系统能够更精确地将口头指令(如“点击‘保存’按钮”)映射到 UI 元素,提升可访问性。
- 跨平台 UI 分析:企业可以使用单一模型分析来自异构设备的用户交互日志,得益于缩放对视觉上下文的归一化能力。
- 资源高效的扩展:由于 ZoomClick 在推理阶段工作,可选择性地(例如仅在查询模糊时)应用,节省相较于全量重新训练的计算成本。
局限性与未来工作
- 依赖初始候选生成:ZoomClick 假设已有一组合理的 UI 元素提议;若提议质量差仍会限制性能。
- 延迟开销:处理多个缩放裁剪会增加推理时间(约为单次推理的 2–3 倍),在实时助手场景中可能成为瓶颈。
- 基准范围:GUIZoom‑Bench 侧重于静态截图;尚未覆盖动态 UI 状态(动画、弹窗等)。
作者建议探索 学习式缩放策略(例如使用强化学习决定何时放大/缩小)并将基准扩展到 交互式会话,其中 UI 元素会随时间出现或消失。
核心结论:ZoomClick 表明,一个简单的、无需训练的缩放策略即可为 GUI 定位带来显著提升,为构建更智能 UI 代理的开发者提供了低成本、实用的升级路径。
作者
- Zhiyuan Jiang
- Shenghao Xie
- Wenyi Li
- Wenqiang Zu
- Peihang Li
- Jiahao Qiu
- Siqi Pei
- Lei Ma
- Tiejun Huang
- Mengdi Wang
- Shilong Liu
论文信息
- arXiv ID: 2512.05941v1
- 分类: cs.CV, cs.AI, cs.CL
- 发表时间: 2025 年 12 月 5 日
- PDF: Download PDF