[Paper] 从用户界面到代理界面:LLM 代理的 UI 表示效率优化

发布: (2025年12月15日 GMT+8 23:34)
7 min read
原文: arXiv

Source: arXiv - 2512.13438v1

概述

本文介绍了 UIFormer,一种新颖的框架,能够自动重写用户界面(UI)表示,使其对大型语言模型(LLM)代理更为紧凑。通过削减 LLM 必须处理的 UI “token” 数据量,UIFormer 加速了诸如自动化 UI 测试、AI 驱动的助手以及跨平台导航等任务——且不牺牲准确性。

关键贡献

  • 首个自动化 UI 表示优化器,用于 LLM 代理,兼顾 token 效率和功能完整性。
  • 领域特定语言(DSL),用于编码常见的 UI 转换原语(例如,剪枝不可见节点、合并相似控件)。
  • 基于约束的合成 + LLM 引导的细化:两阶段流水线,缩小程序搜索空间,并通过正确性和效率奖励迭代提升解。
  • 轻量级插件架构,可无缝嵌入现有基于 LLM 的代理,代码改动几乎为零。
  • 广泛评估 在 Android 与 Web UI 导航基准上(3 个数据集,5 种 LLM 后端),显示 token 减少 48 %–56 %,且任务性能相等或更佳。
  • 真实场景验证:在微信 UI 自动化流水线中的部署,确认了工业价值。

方法论

  1. 问题表述 – 作者将 UI 优化视为程序合成任务:给定原始 UI 树,合成一个转换程序,输出更小且语义等价的表示。
  2. DSL 设计 – DSL 包含一小套 UI‑特定的操作符(例如 remove_hiddencollapse_groupabstract_text)。这限制了搜索空间,并保证生成的程序仍然位于 UI 领域。
  3. 基于约束的分解 – UIFormer 首先将大型合成问题拆分为更小的子问题(例如按屏幕区域),并应用静态约束(类型安全、层次保持)提前剪枝无效程序。
  4. LLM‑驱动的迭代细化 – 选定的 LLM(如 GPT‑4、Claude)提出候选程序。每个候选程序通过两种奖励进行评估:
    • 正确性奖励 – 检查转换后的 UI 是否仍然满足一组功能测试(例如仍能定位目标部件)。
    • 效率奖励 – 测量 token 数量的减少。
      LLM 被提示改进程序,直至两种奖励收敛。
  5. 插件集成 – UIFormer 作为预处理步骤运行:代理接收优化后的 UI 表示,执行其正常推理,插件可在需要时将结果后处理回原始 UI。

结果与发现

基准LLM令牌减少率代理成功率
Android UI‑Nav(3k 屏幕)GPT‑452.3 %+1.2 %
Web UI‑Nav(2.5k 页面)Claude 248.7 %unchanged
Mixed‑Platform(1.8k 屏幕)Llama‑2‑70B55.8 %+0.8 %
  • 运行时开销保持在每个 UI 120 ms 以下,与 LLM 推理时间相比可忽略不计。
  • 鲁棒性:在 >95 % 的情况下,转换后的 UI 通过了与原始 UI 相同的功能测试套件,确认了语义保持。
  • 行业部署:在微信,UIFormer 将平均 API 负载大小降低约 50 %,并将 UI 自动化机器人端到端延迟减少约 30 ms,从而提升每日自动化测试运行的吞吐量。

实际意义

  • 更快的 LLM 代理 – 更小的 UI 负载意味着 LLM 需要嵌入的上下文更少,直接降低基于 token 的成本(例如 OpenAI API 定价)和推理延迟。
  • 可扩展的 UI 自动化 – 团队可以在相同的硬件预算下运行更多并发的 UI 测试机器人,这对大型移动/网页应用套件尤为有价值。
  • 边缘部署 – 在带宽受限的设备上(如 IoT 仪表盘),传输紧凑的 UI 表示可以简化实时 LLM 辅助。
  • 即插即用的采纳 – 由于 UIFormer 是一个轻量级的预处理器,现有代码库(Selenium、Appium、定制 UI 代理)可以在不重写核心逻辑的情况下升级。
  • 跨平台一致性 – DSL 抽象掉平台特有的怪癖,使得 Android、iOS 和 Web UI 可以使用同一套优化流水线。

局限性与未来工作

  • 依赖功能测试 Oracle – 正确性奖励依赖于一套 UI 级别的测试;在缺乏完整测试套件的领域,保证语义保持可能更困难。
  • DSL 表达能力 – 虽然当前 DSL 覆盖了常见的剪枝和抽象模式,但对于异构 UI 控件(自定义画布元素、AR 覆盖层)可能需要扩展。
  • LLM 偏差 – 迭代细化步骤继承了底层 LLM 的幻觉倾向;在安全关键的应用中仍可能需要偶尔进行人工检查。
  • 作者提出的未来方向 包括:
    1. 从大型 UI 语料库中学习数据驱动的 DSL。
    2. 融入强化学习以取代手工设计的奖励函数。
    3. 将 UIFormer 扩展至处理动态、事件驱动的 UI 状态(例如动画、懒加载内容)。

作者

  • Dezhi Ran
  • Zhi Gong
  • Yuzhe Guo
  • Mengzhou Wu
  • Yuan Cao
  • Haochuan Lu
  • Hengyu Zhang
  • Xia Zeng
  • Gang Cao
  • Liangchao Yao
  • Yuetang Deng
  • Wei Yang
  • Tao Xie

论文信息

  • arXiv ID: 2512.13438v1
  • 分类: cs.SE, cs.AI
  • 出版日期: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »