[Paper] BAMI:免训练偏差缓解在 GUI Grounding 中
发布: (2026年5月8日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.06664v1
概述
论文介绍了 BAMI,一种无需训练的技术,能够显著降低两种隐藏的误差来源——来自高分辨率截图的precision bias和来自拥挤 UI 元素的ambiguity bias——在对图形用户界面(GUI)进行定位时。将 BAMI 插入现有的 GUI‑grounding 模型后,开发者可以在诸如 ScreenSpot‑Pro 等具有挑战性的基准上提升性能,而无需重新训练任何模型。
关键贡献
- 使用掩码预测分布 (MPD) 进行偏差诊断: 一种新颖的归因工具,可定位 GUI 定位流水线中的精度偏差和歧义偏差。
- 偏差感知操作推理 (BAMI): 一个轻量级、仅推理的框架,应用两种操作——粗到细聚焦和候选选择,以抵消已识别的偏差。
- 无需训练的性能提升: 在多个最先进模型(例如 TianXi‑Action‑7B)上展示,ScreenSpot‑Pro 基准上最高 +6 % 绝对准确率。
- 通过广泛消融实验验证的鲁棒性: 在各种超参数设置下显示出稳定的改进。
- 开源实现: 作者发布代码和脚本,便于实践者在其流水线中采用 BAMI。
方法论
- 使用 MPD 检测偏差 – 作者在 GUI 截图上随机遮蔽补丁,并观察模型预测分布的变化。大的偏移揭示模型过于敏感的区域(精度偏差)或困惑的区域(歧义偏差)。
- 粗到细的聚焦 – BAMI 并不直接输入全分辨率图像,而是先在下采样(粗糙)版本上运行模型,以定位大致感兴趣区域,然后在该区域的高分辨率裁剪上细化预测。这降低了因不必要的像素级细节导致的精度偏差。
- 候选项选择 – 对于外观相似的 UI 元素(例如多个具有相同图标的按钮),BAMI 在粗略阶段生成一个简短的合理候选列表,并使用结合文本线索(标签、工具提示)的轻量相似度得分对其重新排序。此方法在无需额外训练的情况下缓解了歧义偏差。
- 仅推理流水线 – 所有步骤均在测试时执行;不计算梯度,也不修改模型权重。该方法可以作为即插即用的后处理器,包装在任何现有的 GUI 定位模型之上。
结果与发现
| 模型(基线) | 在 ScreenSpot‑Pro 上的准确率 | 使用 BAMI 的准确率 | Δ |
|---|---|---|---|
| TianXi‑Action‑7B | 51.9 % | 57.8 % | +5.9 % |
| 其他 SOTA 模型 | 48–53 % | 53–58 % | +4–6 % |
- 一致的提升 在所有测试模型中,证实这些偏差是模型无关的。
- 消融研究 表明,去除粗到细的聚焦或候选选择任一项都会使性能下降至接近基线,证明两个组件都是必需的。
- 参数稳定性:改变下采样因子(2×–8×)或候选列表大小(3–7)仅会使结果变化 ≤0.5 %,表明 BAMI 开箱即用,几乎不需调参。
实际意义
- 更快的部署: 团队可以在不进行昂贵的再训练周期的情况下,改进现有的 GUI 自动化代理(例如测试自动化机器人、无障碍工具)。
- 生产环境中的更高可靠性: 减少精度偏差意味着在高 DPI 屏幕上错过点击的情况更少;缓解歧义偏差则可降低在密集仪表盘中错误选择元素的概率。
- 异构 UI 的即插即用: 由于 BAMI 仅在推理阶段工作,它可以添加到已经支持多种设备形态(移动端、桌面端、网页)的流水线中。
- 成本效益的规模化: 组织只需更新推理包装器即可在成千上万台机器上部署升级后的代理,避免了 GPU 密集型的微调。
- 开源集成: 提供的 GitHub 仓库包含流行框架(PyTorch、TensorFlow)的现成包装器,使得将 BAMI 嵌入 CI/CD 测试套件或 RPA 平台变得非常简便。
限制与未来工作
- 对视觉质量的依赖: 极低分辨率的截图仍可能阻碍粗到细的步骤,因为初始的区域提议会变得嘈杂。
- 仅限静态 GUI: 当前设计假设只有单帧静态画面;将 BAMI 扩展到基于视频的交互(例如拖拽动画)仍是一个未解决的挑战。
- 候选选择启发式: 虽然有效,但相似度评分依赖文本元数据;缺乏可访问标签的 GUI 可能收益降低。
- 未来方向 包括集成轻量级 OCR 以丰富文本线索,探索基于 UI 复杂度的自适应降采样策略,以及将 BAMI 应用于结合语音指令与视觉定位的多模态代理。
作者
- Borui Zhang
- Bo Zhang
- Bo Wang
- Wenzhao Zheng
- Yuhao Cheng
- Liang Tang
- Yiqiang Yan
- Jie Zhou
- Jiwen Lu
论文信息
- arXiv ID: 2605.06664v1
- 分类: cs.CV, cs.AI
- 出版日期: 2026年5月7日
- PDF: 下载 PDF