[Paper] 从用户界面到代理界面：LLM 代理的 UI 表示效率优化

发布: 3天前 (2025年12月15日 GMT+8 23:34)

7 min read

原文: arXiv

Source: arXiv - 2512.13438v1

概述

本文介绍了 UIFormer，一种新颖的框架，能够自动重写用户界面（UI）表示，使其对大型语言模型（LLM）代理更为紧凑。通过削减 LLM 必须处理的 UI “token” 数据量，UIFormer 加速了诸如自动化 UI 测试、AI 驱动的助手以及跨平台导航等任务——且不牺牲准确性。

首个自动化 UI 表示优化器，用于 LLM 代理，兼顾 token 效率和功能完整性。
领域特定语言（DSL），用于编码常见的 UI 转换原语（例如，剪枝不可见节点、合并相似控件）。
基于约束的合成 + LLM 引导的细化：两阶段流水线，缩小程序搜索空间，并通过正确性和效率奖励迭代提升解。
轻量级插件架构，可无缝嵌入现有基于 LLM 的代理，代码改动几乎为零。
广泛评估 在 Android 与 Web UI 导航基准上（3 个数据集，5 种 LLM 后端），显示 token 减少 48 %–56 %，且任务性能相等或更佳。
真实场景验证：在微信 UI 自动化流水线中的部署，确认了工业价值。

问题表述 – 作者将 UI 优化视为程序合成任务：给定原始 UI 树，合成一个转换程序，输出更小且语义等价的表示。
DSL 设计 – DSL 包含一小套 UI‑特定的操作符（例如 remove_hidden、collapse_group、abstract_text）。这限制了搜索空间，并保证生成的程序仍然位于 UI 领域。
基于约束的分解 – UIFormer 首先将大型合成问题拆分为更小的子问题（例如按屏幕区域），并应用静态约束（类型安全、层次保持）提前剪枝无效程序。
LLM‑驱动的迭代细化 – 选定的 LLM（如 GPT‑4、Claude）提出候选程序。每个候选程序通过两种奖励进行评估：
- 正确性奖励 – 检查转换后的 UI 是否仍然满足一组功能测试（例如仍能定位目标部件）。
- 效率奖励 – 测量 token 数量的减少。
  LLM 被提示改进程序，直至两种奖励收敛。
插件集成 – UIFormer 作为预处理步骤运行：代理接收优化后的 UI 表示，执行其正常推理，插件可在需要时将结果后处理回原始 UI。

基准	LLM	令牌减少率	代理成功率
Android UI‑Nav（3k 屏幕）	GPT‑4	52.3 %	+1.2 %
Web UI‑Nav（2.5k 页面）	Claude 2	48.7 %	unchanged
Mixed‑Platform（1.8k 屏幕）	Llama‑2‑70B	55.8 %	+0.8 %

运行时开销保持在每个 UI 120 ms 以下，与 LLM 推理时间相比可忽略不计。
鲁棒性：在 >95 % 的情况下，转换后的 UI 通过了与原始 UI 相同的功能测试套件，确认了语义保持。
行业部署：在微信，UIFormer 将平均 API 负载大小降低约 50 %，并将 UI 自动化机器人端到端延迟减少约 30 ms，从而提升每日自动化测试运行的吞吐量。

更快的 LLM 代理 – 更小的 UI 负载意味着 LLM 需要嵌入的上下文更少，直接降低基于 token 的成本（例如 OpenAI API 定价）和推理延迟。
可扩展的 UI 自动化 – 团队可以在相同的硬件预算下运行更多并发的 UI 测试机器人，这对大型移动/网页应用套件尤为有价值。
边缘部署 – 在带宽受限的设备上（如 IoT 仪表盘），传输紧凑的 UI 表示可以简化实时 LLM 辅助。
即插即用的采纳 – 由于 UIFormer 是一个轻量级的预处理器，现有代码库（Selenium、Appium、定制 UI 代理）可以在不重写核心逻辑的情况下升级。
跨平台一致性 – DSL 抽象掉平台特有的怪癖，使得 Android、iOS 和 Web UI 可以使用同一套优化流水线。

依赖功能测试 Oracle – 正确性奖励依赖于一套 UI 级别的测试；在缺乏完整测试套件的领域，保证语义保持可能更困难。
DSL 表达能力 – 虽然当前 DSL 覆盖了常见的剪枝和抽象模式，但对于异构 UI 控件（自定义画布元素、AR 覆盖层）可能需要扩展。
LLM 偏差 – 迭代细化步骤继承了底层 LLM 的幻觉倾向；在安全关键的应用中仍可能需要偶尔进行人工检查。
作者提出的未来方向 包括：
1. 从大型 UI 语料库中学习数据驱动的 DSL。
2. 融入强化学习以取代手工设计的奖励函数。
3. 将 UIFormer 扩展至处理动态、事件驱动的 UI 状态（例如动画、懒加载内容）。