[Paper] AndroidLens: 长延迟评估与嵌套子目标的 Android GUI Agents
发布: (2025年12月25日 GMT+8 01:40)
8 min read
原文: arXiv
Source: arXiv - 2512.21302v1
请提供您希望翻译的正文内容(除代码块和 URL 之外),我将按照要求将其翻译成简体中文并保留原始的格式和 markdown 语法。
Overview
本文介绍了 AndroidLens,这是一套全新的基准,用于严格评估在 Android 设备上自动执行长时延任务的移动 GUI 代理。通过汇集 571 个跨越 38 个领域(包括中文和英文)的真实任务,并引入细粒度的进度度量,作者揭示了当前最先进代理的局限性,并指出了具体的研究和工程空白。
关键贡献
- 大规模、多样化任务套件 – 571 个多步骤任务(平均 > 26 个动作),来源于 38 个应用领域的真实用户场景。
- 嵌套子目标设计 – 每个任务被拆分为层次化的子目标,能够评估高层成功和中间推理。
- 具有多条有效路径的静态评估 – 保留真实世界 UI 异常(广告、弹窗、布局变化),同时允许不同的正确执行轨迹,减少对单一“黄金”路径的偏见。
- 基于动态里程碑的指标(平均任务进度,ATP) – 测量细粒度进度而非二元成功/失败,提供对部分能力的洞察。
- 全面的基线研究 – 评估了多种领先的 GUI‑agent 模型,显示最佳情况为 12.7 % 任务成功率和 50.47 % ATP,凸显长时延自动化的难度。
Source: …
方法论
- 任务收集 – 作者从用户论坛、支持工单和众包脚本中挖掘真实的自动化场景(例如,“批量上传带尺寸限制的照片”,“在处理验证码的同时预订火车票”)。
- 任务标注 – 为每个场景标注层次化的子目标(例如,“打开应用 → 进入设置 → 切换选项”)。记录多个有效的 UI 路径,以反映 UI 的多样性。
- 静态评估 – 代理在应用 UI 的冻结快照上运行。系统检查代理是否遵循任意记录的有效路径,容忍广告或布局偏移等 UI 异常。
- 动态评估 – 当代理与真实设备交互时,框架会插入 里程碑(预定义检查点)。每执行一次操作后,计算已完成里程碑的比例,得到 平均任务进度(ATP) 分数。
- 基线模型 – 本研究在相同条件下测试了若干最新的视觉‑语言代理(例如,基于 Pix2Seq 的、基于 Transformer 的 UI 解析器),并报告成功率和 ATP。
结果与发现
| 指标 | 最佳模型 | 各模型平均 |
|---|---|---|
| 任务成功率 | 12.7 % | 5.3 % |
| 平均任务进度 (ATP) | 50.47 % | 31.2 % |
- 尽管语言模型强大,成功率仍低 – 即使是表现最好的代理也在约 87 % 的任务中失败,证明长延迟、多约束的自动化仍是未解决的问题。
- 部分进展很常见 – 许多代理大约完成一半的里程碑,这表明它们能够导航 UI 结构,但在约束、错误处理或依赖记忆的步骤上出现困难。
- 主要失败模式:
- 环境异常:意外弹窗、动态广告和 UI 布局变化会破坏僵硬的操作序列。
- 自适应探索:代理经常无法决定何时回溯或尝试替代的 UI 路径。
- 长期记忆:在超过 20 步(例如验证码)中保留信息仍不可靠。
实际意义
- Tooling for enterprise automation – 正在尝试自动化重复移动工作流(例如批量数据录入、票务预订)的公司应保持理性预期;当前的代理仍需大量工程工作(回退处理、定制脚本)才能达到生产级可靠性。
- Benchmark‑driven development – AndroidLens 提供了一套现成的测试套件,供开发自定义 GUI 机器人使用,使其能够快速迭代,提高对 UI 噪声和多步骤推理的鲁棒性。
- Hybrid approaches – 成功案例与 ATP 之间的差距表明了一条有前景的方向:将视觉‑语言代理与基于规则的控制器或记忆模块(例如外部键‑值存储)相结合,以处理约束和长期状态。
- Cross‑language support – 同时包含中文和英文任务凸显了多语言 UI 理解的需求,这对全球应用和本地化流水线尤为重要。
限制与未来工作
- 静态快照偏差 – 虽然保留了异常,但静态模式无法捕捉运行时性能变化(网络延迟、后台进程)。
- 领域覆盖 – 尽管涵盖了 38 个领域,但某些企业级应用(例如金融、医疗)具有严格的安全流程,未被包含。
- 内存评估 – 基准测试衡量进展,但未能单独定位内存相关的失败;未来工作可以添加显式的“召回”检查点。
- 代理多样性 – 基线研究聚焦于少数公开可用的模型;扩展到专有或新兴的多模态代理将进一步验证基准的难度。
AndroidLens 为移动 GUI 自动化研究设定了更高的标准,并为开发者提供了一个真实的衡量尺度,以评估当前 AI 代理在生产环境中真正有用的程度。
作者
- Yue Cao
- Yingyao Wang
- Pi Bu
- Jingxuan Xing
- Wei Jiang
- Zekun Zhu
- Junpeng Ma
- Sashuai Zhou
- Tong Lu
- Jun Song
- Yu Cheng
- Yuning Jiang
- Bo Zheng
论文信息
- arXiv ID: 2512.21302v1
- 分类: cs.CV
- 出版日期: 2025年12月24日
- PDF: 下载 PDF