[Paper] 从用户界面到代理界面:LLM 代理的 UI 表示效率优化
发布: (2025年12月15日 GMT+8 23:34)
7 min read
原文: arXiv
Source: arXiv - 2512.13438v1
概述
本文介绍了 UIFormer,一种新颖的框架,能够自动重写用户界面(UI)表示,使其对大型语言模型(LLM)代理更为紧凑。通过削减 LLM 必须处理的 UI “token” 数据量,UIFormer 加速了诸如自动化 UI 测试、AI 驱动的助手以及跨平台导航等任务——且不牺牲准确性。
关键贡献
- 首个自动化 UI 表示优化器,用于 LLM 代理,兼顾 token 效率和功能完整性。
- 领域特定语言(DSL),用于编码常见的 UI 转换原语(例如,剪枝不可见节点、合并相似控件)。
- 基于约束的合成 + LLM 引导的细化:两阶段流水线,缩小程序搜索空间,并通过正确性和效率奖励迭代提升解。
- 轻量级插件架构,可无缝嵌入现有基于 LLM 的代理,代码改动几乎为零。
- 广泛评估 在 Android 与 Web UI 导航基准上(3 个数据集,5 种 LLM 后端),显示 token 减少 48 %–56 %,且任务性能相等或更佳。
- 真实场景验证:在微信 UI 自动化流水线中的部署,确认了工业价值。
方法论
- 问题表述 – 作者将 UI 优化视为程序合成任务:给定原始 UI 树,合成一个转换程序,输出更小且语义等价的表示。
- DSL 设计 – DSL 包含一小套 UI‑特定的操作符(例如
remove_hidden、collapse_group、abstract_text)。这限制了搜索空间,并保证生成的程序仍然位于 UI 领域。 - 基于约束的分解 – UIFormer 首先将大型合成问题拆分为更小的子问题(例如按屏幕区域),并应用静态约束(类型安全、层次保持)提前剪枝无效程序。
- LLM‑驱动的迭代细化 – 选定的 LLM(如 GPT‑4、Claude)提出候选程序。每个候选程序通过两种奖励进行评估:
- 正确性奖励 – 检查转换后的 UI 是否仍然满足一组功能测试(例如仍能定位目标部件)。
- 效率奖励 – 测量 token 数量的减少。
LLM 被提示改进程序,直至两种奖励收敛。
- 插件集成 – UIFormer 作为预处理步骤运行:代理接收优化后的 UI 表示,执行其正常推理,插件可在需要时将结果后处理回原始 UI。
结果与发现
| 基准 | LLM | 令牌减少率 | 代理成功率 |
|---|---|---|---|
| Android UI‑Nav(3k 屏幕) | GPT‑4 | 52.3 % | +1.2 % |
| Web UI‑Nav(2.5k 页面) | Claude 2 | 48.7 % | unchanged |
| Mixed‑Platform(1.8k 屏幕) | Llama‑2‑70B | 55.8 % | +0.8 % |
- 运行时开销保持在每个 UI 120 ms 以下,与 LLM 推理时间相比可忽略不计。
- 鲁棒性:在 >95 % 的情况下,转换后的 UI 通过了与原始 UI 相同的功能测试套件,确认了语义保持。
- 行业部署:在微信,UIFormer 将平均 API 负载大小降低约 50 %,并将 UI 自动化机器人端到端延迟减少约 30 ms,从而提升每日自动化测试运行的吞吐量。
实际意义
- 更快的 LLM 代理 – 更小的 UI 负载意味着 LLM 需要嵌入的上下文更少,直接降低基于 token 的成本(例如 OpenAI API 定价)和推理延迟。
- 可扩展的 UI 自动化 – 团队可以在相同的硬件预算下运行更多并发的 UI 测试机器人,这对大型移动/网页应用套件尤为有价值。
- 边缘部署 – 在带宽受限的设备上(如 IoT 仪表盘),传输紧凑的 UI 表示可以简化实时 LLM 辅助。
- 即插即用的采纳 – 由于 UIFormer 是一个轻量级的预处理器,现有代码库(Selenium、Appium、定制 UI 代理)可以在不重写核心逻辑的情况下升级。
- 跨平台一致性 – DSL 抽象掉平台特有的怪癖,使得 Android、iOS 和 Web UI 可以使用同一套优化流水线。
局限性与未来工作
- 依赖功能测试 Oracle – 正确性奖励依赖于一套 UI 级别的测试;在缺乏完整测试套件的领域,保证语义保持可能更困难。
- DSL 表达能力 – 虽然当前 DSL 覆盖了常见的剪枝和抽象模式,但对于异构 UI 控件(自定义画布元素、AR 覆盖层)可能需要扩展。
- LLM 偏差 – 迭代细化步骤继承了底层 LLM 的幻觉倾向;在安全关键的应用中仍可能需要偶尔进行人工检查。
- 作者提出的未来方向 包括:
- 从大型 UI 语料库中学习数据驱动的 DSL。
- 融入强化学习以取代手工设计的奖励函数。
- 将 UIFormer 扩展至处理动态、事件驱动的 UI 状态(例如动画、懒加载内容)。
作者
- Dezhi Ran
- Zhi Gong
- Yuzhe Guo
- Mengzhou Wu
- Yuan Cao
- Haochuan Lu
- Hengyu Zhang
- Xia Zeng
- Gang Cao
- Liangchao Yao
- Yuetang Deng
- Wei Yang
- Tao Xie
论文信息
- arXiv ID: 2512.13438v1
- 分类: cs.SE, cs.AI
- 出版日期: 2025年12月15日
- PDF: 下载 PDF