[Paper] AndroidLens: 长延迟评估与嵌套子目标的 Android GUI Agents

发布: 1个月前 (2025年12月25日 GMT+8 01:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.21302v1

请提供您希望翻译的正文内容（除代码块和 URL 之外），我将按照要求将其翻译成简体中文并保留原始的格式和 markdown 语法。

Overview

本文介绍了 AndroidLens，这是一套全新的基准，用于严格评估在 Android 设备上自动执行长时延任务的移动 GUI 代理。通过汇集 571 个跨越 38 个领域（包括中文和英文）的真实任务，并引入细粒度的进度度量，作者揭示了当前最先进代理的局限性，并指出了具体的研究和工程空白。

大规模、多样化任务套件 – 571 个多步骤任务（平均 > 26 个动作），来源于 38 个应用领域的真实用户场景。
嵌套子目标设计 – 每个任务被拆分为层次化的子目标，能够评估高层成功和中间推理。
具有多条有效路径的静态评估 – 保留真实世界 UI 异常（广告、弹窗、布局变化），同时允许不同的正确执行轨迹，减少对单一“黄金”路径的偏见。
基于动态里程碑的指标（平均任务进度，ATP） – 测量细粒度进度而非二元成功/失败，提供对部分能力的洞察。
全面的基线研究 – 评估了多种领先的 GUI‑agent 模型，显示最佳情况为 12.7 % 任务成功率和 50.47 % ATP，凸显长时延自动化的难度。

Source: …

任务收集 – 作者从用户论坛、支持工单和众包脚本中挖掘真实的自动化场景（例如，“批量上传带尺寸限制的照片”，“在处理验证码的同时预订火车票”）。
任务标注 – 为每个场景标注层次化的子目标（例如，“打开应用 → 进入设置 → 切换选项”）。记录多个有效的 UI 路径，以反映 UI 的多样性。
静态评估 – 代理在应用 UI 的冻结快照上运行。系统检查代理是否遵循任意记录的有效路径，容忍广告或布局偏移等 UI 异常。
动态评估 – 当代理与真实设备交互时，框架会插入 里程碑（预定义检查点）。每执行一次操作后，计算已完成里程碑的比例，得到 平均任务进度（ATP） 分数。
基线模型 – 本研究在相同条件下测试了若干最新的视觉‑语言代理（例如，基于 Pix2Seq 的、基于 Transformer 的 UI 解析器），并报告成功率和 ATP。

指标	最佳模型	各模型平均
任务成功率	12.7 %	5.3 %
平均任务进度 (ATP)	50.47 %	31.2 %

尽管语言模型强大，成功率仍低 – 即使是表现最好的代理也在约 87 % 的任务中失败，证明长延迟、多约束的自动化仍是未解决的问题。
部分进展很常见 – 许多代理大约完成一半的里程碑，这表明它们能够导航 UI 结构，但在约束、错误处理或依赖记忆的步骤上出现困难。
主要失败模式：
- 环境异常：意外弹窗、动态广告和 UI 布局变化会破坏僵硬的操作序列。
- 自适应探索：代理经常无法决定何时回溯或尝试替代的 UI 路径。
- 长期记忆：在超过 20 步（例如验证码）中保留信息仍不可靠。

Tooling for enterprise automation – 正在尝试自动化重复移动工作流（例如批量数据录入、票务预订）的公司应保持理性预期；当前的代理仍需大量工程工作（回退处理、定制脚本）才能达到生产级可靠性。
Benchmark‑driven development – AndroidLens 提供了一套现成的测试套件，供开发自定义 GUI 机器人使用，使其能够快速迭代，提高对 UI 噪声和多步骤推理的鲁棒性。
Hybrid approaches – 成功案例与 ATP 之间的差距表明了一条有前景的方向：将视觉‑语言代理与基于规则的控制器或记忆模块（例如外部键‑值存储）相结合，以处理约束和长期状态。
Cross‑language support – 同时包含中文和英文任务凸显了多语言 UI 理解的需求，这对全球应用和本地化流水线尤为重要。

AndroidLens 为移动 GUI 自动化研究设定了更高的标准，并为开发者提供了一个真实的衡量尺度，以评估当前 AI 代理在生产环境中真正有用的程度。