[Paper] AndroidLens: 长延迟评估与嵌套子目标的 Android GUI Agents

发布: (2025年12月25日 GMT+8 01:40)
8 min read
原文: arXiv

Source: arXiv - 2512.21302v1

请提供您希望翻译的正文内容(除代码块和 URL 之外),我将按照要求将其翻译成简体中文并保留原始的格式和 markdown 语法。

Overview

本文介绍了 AndroidLens,这是一套全新的基准,用于严格评估在 Android 设备上自动执行长时延任务的移动 GUI 代理。通过汇集 571 个跨越 38 个领域(包括中文和英文)的真实任务,并引入细粒度的进度度量,作者揭示了当前最先进代理的局限性,并指出了具体的研究和工程空白。

关键贡献

  • 大规模、多样化任务套件 – 571 个多步骤任务(平均 > 26 个动作),来源于 38 个应用领域的真实用户场景。
  • 嵌套子目标设计 – 每个任务被拆分为层次化的子目标,能够评估高层成功和中间推理。
  • 具有多条有效路径的静态评估 – 保留真实世界 UI 异常(广告、弹窗、布局变化),同时允许不同的正确执行轨迹,减少对单一“黄金”路径的偏见。
  • 基于动态里程碑的指标(平均任务进度,ATP) – 测量细粒度进度而非二元成功/失败,提供对部分能力的洞察。
  • 全面的基线研究 – 评估了多种领先的 GUI‑agent 模型,显示最佳情况为 12.7 % 任务成功率和 50.47 % ATP,凸显长时延自动化的难度。

Source:

方法论

  1. 任务收集 – 作者从用户论坛、支持工单和众包脚本中挖掘真实的自动化场景(例如,“批量上传带尺寸限制的照片”,“在处理验证码的同时预订火车票”)。
  2. 任务标注 – 为每个场景标注层次化的子目标(例如,“打开应用 → 进入设置 → 切换选项”)。记录多个有效的 UI 路径,以反映 UI 的多样性。
  3. 静态评估 – 代理在应用 UI 的冻结快照上运行。系统检查代理是否遵循任意记录的有效路径,容忍广告或布局偏移等 UI 异常。
  4. 动态评估 – 当代理与真实设备交互时,框架会插入 里程碑(预定义检查点)。每执行一次操作后,计算已完成里程碑的比例,得到 平均任务进度(ATP) 分数。
  5. 基线模型 – 本研究在相同条件下测试了若干最新的视觉‑语言代理(例如,基于 Pix2Seq 的、基于 Transformer 的 UI 解析器),并报告成功率和 ATP。

结果与发现

指标最佳模型各模型平均
任务成功率12.7 %5.3 %
平均任务进度 (ATP)50.47 %31.2 %
  • 尽管语言模型强大,成功率仍低 – 即使是表现最好的代理也在约 87 % 的任务中失败,证明长延迟、多约束的自动化仍是未解决的问题。
  • 部分进展很常见 – 许多代理大约完成一半的里程碑,这表明它们能够导航 UI 结构,但在约束、错误处理或依赖记忆的步骤上出现困难。
  • 主要失败模式
    • 环境异常:意外弹窗、动态广告和 UI 布局变化会破坏僵硬的操作序列。
    • 自适应探索:代理经常无法决定何时回溯或尝试替代的 UI 路径。
    • 长期记忆:在超过 20 步(例如验证码)中保留信息仍不可靠。

实际意义

  • Tooling for enterprise automation – 正在尝试自动化重复移动工作流(例如批量数据录入、票务预订)的公司应保持理性预期;当前的代理仍需大量工程工作(回退处理、定制脚本)才能达到生产级可靠性。
  • Benchmark‑driven development – AndroidLens 提供了一套现成的测试套件,供开发自定义 GUI 机器人使用,使其能够快速迭代,提高对 UI 噪声和多步骤推理的鲁棒性。
  • Hybrid approaches – 成功案例与 ATP 之间的差距表明了一条有前景的方向:将视觉‑语言代理与基于规则的控制器或记忆模块(例如外部键‑值存储)相结合,以处理约束和长期状态。
  • Cross‑language support – 同时包含中文和英文任务凸显了多语言 UI 理解的需求,这对全球应用和本地化流水线尤为重要。

限制与未来工作

  • 静态快照偏差 – 虽然保留了异常,但静态模式无法捕捉运行时性能变化(网络延迟、后台进程)。
  • 领域覆盖 – 尽管涵盖了 38 个领域,但某些企业级应用(例如金融、医疗)具有严格的安全流程,未被包含。
  • 内存评估 – 基准测试衡量进展,但未能单独定位内存相关的失败;未来工作可以添加显式的“召回”检查点。
  • 代理多样性 – 基线研究聚焦于少数公开可用的模型;扩展到专有或新兴的多模态代理将进一步验证基准的难度。

AndroidLens 为移动 GUI 自动化研究设定了更高的标准,并为开发者提供了一个真实的衡量尺度,以评估当前 AI 代理在生产环境中真正有用的程度。

作者

  • Yue Cao
  • Yingyao Wang
  • Pi Bu
  • Jingxuan Xing
  • Wei Jiang
  • Zekun Zhu
  • Junpeng Ma
  • Sashuai Zhou
  • Tong Lu
  • Jun Song
  • Yu Cheng
  • Yuning Jiang
  • Bo Zheng

论文信息

  • arXiv ID: 2512.21302v1
  • 分类: cs.CV
  • 出版日期: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »