[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

发布: 2个月前 (2025年12月6日 GMT+8 02:39)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05941v1

概览

本文探讨了一个出乎意料地简单却强大的想法：利用缩放帮助 AI 代理理解图形用户界面（GUI）。通过将缩放视为一种动态的“镜头”，可以聚焦屏幕的不同区域，作者提出了一种无需训练的技术 ZoomClick，显著提升了 GUI 定位能力——即在自然语言中定位用户所指的确切 UI 元素的能力。

关键贡献

ZoomClick 框架 – 一种无需训练的方法，利用缩放的四个内在属性（预缩放、深度、收缩尺寸、最小裁剪尺寸）在推理时动态调整焦点和上下文。
性能提升 – 与现有的视觉‑语言和 GUI 专用模型无缝集成，在 UI‑Venus‑72B 等基准上实现了最先进的结果（ScreenSpot‑Pro 上成功率 73.1 %）。
GUIZoom‑Bench – 一个全新的基准套件，用于评估模型对缩放输入的适应能力，鼓励在测试时进行尺度扩展和缩放感知训练的研究。
跨平台泛化 – 证明了缩放可以帮助模型在没有额外标注数据的情况下处理多样的 UI 布局（移动端、桌面端、网页端）。

方法论

缩放特性描述
- 预缩放：原始的全屏视图。
- 深度：连续放大步骤的次数。
- 收缩尺寸：缩小视图时的缩放因子。
- 最小裁剪尺寸：仍能保留足够视觉上下文的最小区域。
动态空间聚焦
- 在推理时，模型接收一系列以候选 UI 元素为中心、逐步放大的裁剪图像。
- 每个裁剪图像由底层视觉‑语言模型处理；预测结果通过（例如加权投票）方式聚合，得到最终的定位决策。
自适应上下文切换
- 若放大裁剪产生模糊结果，系统会自动回退到更高层级（缩放程度更低）的视图，确保考虑足够的周边 UI 上下文。
无需训练的集成
- 不需要学习额外参数；ZoomClick 只是一个包装器，可附加到任何现成的定位模型上，立即在现有流水线中使用。

结果与发现

模型（基线）	ScreenSpot‑Pro 成功率	使用 ZoomClick 后的成功率
UI‑Venus‑72B	61.4 %	73.1 %（+11.7 pp）
通用视觉‑语言模型（如 CLIP‑based）	48.2 %	60.5 %（+12.3 pp）
专用 GUI 模型（如 GNN‑UI）	55.0 %	66.8 %（+11.8 pp）

在移动端、桌面端和网页 UI 数据集上均表现出 一致的提升。
对布局变化的鲁棒性：ZoomClick 将在新平台（例如从 Android 到 iOS）测试时的性能下降降低约 40 %。
消融实验表明四个缩放属性均有正向贡献；去除“最小裁剪尺寸”对性能影响最大。

实际意义

即插即用的提升：开发者可以将 ZoomClick 包裹在任何已有的 GUI 自动化或测试工具上，只要该工具使用视觉‑语言模型，即可在无需重新训练的情况下获得更高的准确率。
更好的 UI 测试机器人：自动回归测试能够更可靠地定位按钮、对话框或错误信息，即使 UI 设计随时间演进或在不同设备上有所差异。
辅助技术：屏幕阅读器或语音助手系统能够更精确地将口头指令（如“点击‘保存’按钮”）映射到 UI 元素，提升可访问性。
跨平台 UI 分析：企业可以使用单一模型分析来自异构设备的用户交互日志，得益于缩放对视觉上下文的归一化能力。
资源高效的扩展：由于 ZoomClick 在推理阶段工作，可选择性地（例如仅在查询模糊时）应用，节省相较于全量重新训练的计算成本。

局限性与未来工作

依赖初始候选生成：ZoomClick 假设已有一组合理的 UI 元素提议；若提议质量差仍会限制性能。
延迟开销：处理多个缩放裁剪会增加推理时间（约为单次推理的 2–3 倍），在实时助手场景中可能成为瓶颈。
基准范围：GUIZoom‑Bench 侧重于静态截图；尚未覆盖动态 UI 状态（动画、弹窗等）。

作者建议探索 学习式缩放策略（例如使用强化学习决定何时放大/缩小）并将基准扩展到 交互式会话，其中 UI 元素会随时间出现或消失。

核心结论：ZoomClick 表明，一个简单的、无需训练的缩放策略即可为 GUI 定位带来显著提升，为构建更智能 UI 代理的开发者提供了低成本、实用的升级路径。

作者

Zhiyuan Jiang
Shenghao Xie
Wenyi Li
Wenqiang Zu
Peihang Li
Jiahao Qiu
Siqi Pei
Lei Ma
Tiejun Huang
Mengdi Wang
Shilong Liu

论文信息

arXiv ID: 2512.05941v1
分类: cs.CV, cs.AI, cs.CL
发表时间: 2025 年 12 月 5 日
PDF: Download PDF

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 主动视频感知：迭代证据搜索用于 Agentic 长视频理解

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

[Paper] Jina-VLM：小型多语言视觉语言模型