[Paper] Chain-of-Ground:通过迭代推理和参考反馈提升 GUI Grounding

发布: (2025年12月2日 GMT+8 02:37)
7 min read
原文: arXiv

Source: arXiv - 2512.01979v1

概述

论文 “Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback” 解决了开发能够理解并操作图形用户界面(GUI)的 AI 助手时的实际痛点。通过让多模态大语言模型(LLM)逐步推理文本指令在屏幕上的指向位置,作者在不进行额外模型训练的情况下提升了定位准确率,使该方法能够直接在真实产品中使用。

关键贡献

  • 无需训练的迭代定位框架(Chain‑of‑Ground,CoG)。 将单次视觉定位模型转化为多步推理器,能够在运行时不断细化预测。
  • 参考反馈循环。 每一步推理后模型会收到一个视觉“参考”(例如高亮区域),并可在最终给出答案前纠正错误。
  • 全新真实场景基准(TPanel‑UI)。 包含 420 张工业控制面板截图,具备真实失真(模糊、遮挡、遮蔽),用于测试对合成 UI 数据集之外的鲁棒性。
  • 领先的性能提升。 在 ScreenSpot‑Pro 上达到 68.4 % 的准确率(提升 4.8 pts),在 TPanel‑UI 上相较强基线 Qwen‑3‑VL‑235B 提升 6.9 pts,全部无需微调。
  • 可解释性。 步骤化的推理轨迹可以可视化,帮助开发者调试模型为何选择特定 UI 元素。

方法论

  1. 基础多模态 LLM。 作者使用现成的视觉语言模型(如 Qwen‑3‑VL‑235B),该模型能够接受 GUI 图像和自然语言指令作为输入。
  2. Chain‑of‑Ground 循环。
    • 步骤 1 – 初始假设: 模型提出一个候选区域(例如按钮),并给出文字说明。
    • 步骤 2 – 视觉反馈: 系统将提出的区域渲染为高亮叠加,并将其作为下一轮提示的一部分反馈给模型。
    • 步骤 3 – 再推理: 利用叠加的参考,模型检查不一致之处(如“按钮标签与指令不匹配”),然后确认猜测或提出新区域。
    • 重复 直至固定的少量迭代(通常 2‑3 次),直到模型发出置信信号。
  3. 提示工程。 作者设计了简洁、结构化的提示,要求模型“思考出声”、列出备选并显式请求置信分数。这促使 LLM 进行链式思考推理,已在其他领域证明可提升准确率。
  4. 无需梯度更新。 由于整个过程仅依赖提示和视觉反馈,可直接嵌入任何已有的视觉语言模型流水线。

结果与发现

数据集基线(单次)Chain‑of‑Ground (CoG)Δ 准确率
ScreenSpot‑Pro63.6 %68.4 %+4.8 pts
TPanel‑UI(工业面板)71.2 %(Qwen‑3‑VL‑235B)78.1 %+6.9 pts
  • 迭代细化始终优于一次性预测, 尤其在小 UI 元素(图标、开关)以及视觉噪声较大的屏幕上表现更佳。
  • 可解释性提升: 中间推理步骤揭示模型在相似图标之间的混淆,便于针对性地调整提示。
  • 泛化能力: 同一 CoG 循环在数字原型(ScreenSpot)和拍摄的控制面板(TPanel‑UI)上均有效,表明该方法对光照、模糊和部分遮挡具有鲁棒性。

实际意义

  • 即插即用的 AI 助手。 开发者只需少量代码即可为现有语音或聊天机器人添加可靠的 UI 交互能力(如“点击仪表盘上的‘启动’按钮”。)
  • 自动化 UI 测试。 测试框架可使用 CoG 定位脚本中描述的元素,降低选择器维护的脆弱性。
  • 辅助功能工具。 屏幕阅读器或语音控制层能够更精准地将口头指令映射到 UI 组件,提升运动障碍用户的使用体验。
  • 低代码平台的快速原型。 非技术用户可用自然语言描述 UI 操作,系统可靠定位目标元素,无需开发者手写自定义选择器。
  • 成本效益的规模化。 由于无需额外模型训练,企业可将 CoG 应用于已有的视觉语言模型,避免昂贵的微调流水线。

局限性与未来工作

  • 迭代预算。 当前循环上限为 3 步;更复杂的界面可能需要更深的推理,进而增加延迟。
  • 提示敏感性。 性能受提示措辞影响较大,系统化的提示搜索或自动化提示优化有望提升鲁棒性。
  • 硬件约束。 大型多模态 LLM 仍需大量 GPU 内存,边缘设备上部署 CoG 仍具挑战。
  • 更广的 UI 形态。 本研究聚焦于静态截图,向动态、动画或 3D 界面(如 AR/VR)扩展是未来的开放方向。

总体而言,“Chain‑of‑Ground” 展示了 结构化、迭代式提示 能够在现有多模态模型中释放潜在的定位能力,为开发者构建更智能、更可靠的 UI 感知 AI 系统提供了实用路径。

作者

  • Aiden Yiliu Li
  • Bizhi Yu
  • Daoan Lei
  • Tianhe Ren
  • Shilong Liu

论文信息

  • arXiv ID: 2510.01979v1
  • 分类: cs.AI, cs.CL, cs.CV
  • 发表时间: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »