[Paper] UI-Zoomer：基于不确定性的自适应放大用于 GUI Grounding

发布: 3周前 (2026年4月16日 GMT+8 01:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.14113v1

概览

GUI 语义定位——自动从自然语言指令中定位截图中的 UI 元素——已成为语音助手、自动化测试和辅助功能工具的核心能力。全新的 UI‑Zoomer 框架表明，只需对模型不确定的屏幕区域进行“放大”，即可在无需重新训练模型的情况下显著提升定位准确率。

不确定性驱动的缩放触发器: 一个考虑置信度的门决定何时裁剪并重新处理图像，避免在简单案例上进行不必要的计算。
自适应裁剪尺寸: 使用基于方差的公式（全方差定律）计算每个实例的裁剪半径，将缩放级别针对每个 UI 元素的预测分布进行定制。
无需训练的集成: 作为插件直接作用于现有的 GUI 定位模型（例如基于 LayoutLM、视觉语言 Transformer 的模型），无需额外数据或微调。
广泛的实证提升: 在三个基准数据集（ScreenSpot‑Pro、UI‑Vision、ScreenSpot‑v2）上提升最高 +13.4 % 绝对准确率，并在不同模型骨干上保持一致。
高效推理: 该门过滤掉低不确定性案例，额外的裁剪步骤仅在少量输入上触发，从而保持延迟适中。

Base grounding pass – 原始模型处理全屏截图，并输出查询 UI 元素的边界框，同时提供 token 级别的生成分数。
Uncertainty estimation –
- Spatial consensus：生成多个随机预测（例如通过 dropout 或测试时数据增强），并测量预测框的变化程度。
- Token confidence：汇总语言模型对生成描述 token 的概率。
Confidence‑aware gate – 将空间方差和 token 置信度合并为一个“uncertainty score”。如果该分数超过预设阈值，系统判断预测不可靠并触发放大。
Adaptive crop sizing – 将总体方差分解为：
- Inter‑sample positional spread（随机框的漂移距离）
- Intra‑sample box extent（每个框的大小）
  根据全方差定律，UI‑Zoomer 计算出一个裁剪半径，使其足够大以捕获真实元素，同时足够小以保持图像分辨率。
Second‑pass inference – 将裁剪后的高分辨率图块再次输入相同的定位模型。最终输出为第二次推理得到的精细边界框。

因为整个流水线直接复用原始模型且不做修改，UI‑Zoomer 可以通过几行代码嵌入任何现有的 GUI 定位服务。

数据集	基线（无缩放）	UI‑Zoomer (+)	相对增益
ScreenSpot‑Pro	62.1 %	75.5 %	+13.4 %
UI‑Vision	68.7 %	78.9 %	+10.3 %
ScreenSpot‑v2	71.3 %	75.5 %	+4.2 %

语音控制助手（例如“点击设置图标”）在图标极小的密集移动屏幕上可以变得更可靠。
自动化 UI 测试 框架可以在无需重新训练视觉模型的情况下更精确地定位元素，降低不稳定的测试失败。
无障碍工具（屏幕阅读器）为视障用户提供更好的定位，尤其是在复杂的仪表盘上。
开发者工具：UI‑Zoomer 可以打包为任何现有 GUI‑grounding API 的轻量中间件层，提供快速的性能提升，而无需数据收集或模型微调的成本。
成本效益的扩展：由于该方法无需训练，团队可以立即在多个产品和平台上部署，仅在不确定的情况下支付边际推理成本。

阈值敏感性 – confidence gate 依赖手动设定的不确定性阈值；不理想的取值可能导致计算浪费（阈值过低）或错失改进（阈值过高）。自适应阈值学习可以实现自动化。
极端杂乱的边缘情况 – 当 UI 元素高度重叠时，即使是高分辨率裁剪也可能无法消除歧义；结合布局先验或层次解析可能有所帮助。
低功耗设备上的延迟 – 虽然额外的推理步骤是有选择地触发，但在 GPU/CPU 资源受限的设备上，额外的推理仍可能显著；针对模型的优化（如量化）值得研究。
超出截图的泛化能力 – 当前实验聚焦于静态截图；将 UI‑Zoomer 拓展至视频流或 AR 覆盖层需要处理时间一致性。

总体而言，UI‑Zoomer 证明了智能、具备不确定性感知的测试时增强能够在无需大量模型再训练的工程开销的情况下，为 GUI grounding 带来显著的准确率提升——这对构建下一代智能界面的开发者具有很大吸引力。