[Paper] MAI-UI 技术报告：以真实世界为中心的基础 GUI 代理

发布: 1个月前 (2025年12月26日 GMT+8 22:51)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.22047v1

概览

MAI‑UI 技术报告介绍了一系列新的“基础 GUI 代理”，它们能够理解并操作跨设备的真实世界图形用户界面（GUI）——从小型的 2 B 参数模型到庞大的 235 B 参数变体。通过弥合研究原型与生产就绪代理之间的差距，作者展示了大规模、自我进化的代理能够可靠地导航和操控现代移动和桌面 UI，同时保护隐私并最小化对云端的依赖。

关键贡献

一系列基础 GUI 代理（2 B、8 B、32 B、235 B‑A22 B），可根据延迟、计算预算或隐私需求进行切换。
自我演化的数据流水线，持续使用真实用户交互和工具调用轨迹来增强训练数据，将静态 UI 截图转化为丰富的、面向动作的数据集。
原生设备‑云协作架构，在本地推理和云端模型之间路由任务，将云调用减少超过 40%，并将设备端速度提升 33%。
可扩展的在线强化学习（RL）框架，针对并行环境（最多 512 个工作者）和扩展上下文窗口进行优化，提供持续的性能提升。
最先进的成果 在多个 GUI 对齐任务（ScreenSpot‑Pro、MMBench L2、OSWorld‑G、UI‑Vision）和导航基准（AndroidWorld、MobileWorld）上取得，超越了 Gemini‑3‑Pro、Seed 1.8 等领先基线。

方法论

数据收集与演进 – 从现有的仅 UI 数据集出发，团队在真实环境中运行代理，捕获 user‑agent 交互日志（点击、滑动、文本输入）以及 MCP（mobile‑cloud‑processing）工具调用，然后将这些数据反馈到训练循环中。这会生成一个持续改进的语料库，能够反映真实的使用模式。
模型架构 – 所有代理共享一个通用的 transformer 主干，但规模各不相同。该架构加入了 GUI grounding head（像素到元素的映射）和一个 policy head，用于预测下一个 UI 动作（例如，点击、滚动、输入）。
设备‑云协作 – 设备上的轻量运行时在每一步决定下一次推理是本地完成还是需要云端协助（例如，处理复杂推理）。该决策基于当前的延迟预算、隐私标记以及模型置信度。
在线 RL 训练 – 代理在模拟环境池中进行微调，该环境池模拟 Android/iOS UI 流程。并行度从 32 扩展到 512 个环境，单集的步骤预算从 15 增加到 50，使得策略能够学习更长时域的策略。
优化技巧 – 梯度检查点、混合精度训练以及动态上下文长度调度器，使得即使是 235 B 参数的模型也能保持可接受的内存使用。

结果与发现

基准	指标（数值越高越好）	MAI‑UI（最佳变体）	先前最佳
ScreenSpot‑Pro（GUI grounding）	准确率	73.5 %	Gemini‑3‑Pro（≈71 %）
MMBench GUI L2	准确率	91.3 %	Seed 1.8（≈88 %）
OSWorld‑G	准确率	70.9 %	Gemini‑3‑Pro（≈68 %）
UI‑Vision	准确率	49.2 %	Seed 1.8（≈45 %）
AndroidWorld（navigation）	成功率	76.7 %	UI‑Tars‑2（≈73 %）
MobileWorld（navigation）	成功率	41.7 %	End‑to‑end GUI models（≈30 %）

RL scaling experiments: 将并行环境从 32 → 512 提升了 +5.2 % 点；将步数预算从 15 → 50 提升了 +4.3 % 点。

本地设备‑云系统将每次操作的平均延迟降低了 33 %，削减了云 API 调用 >40 %，并将用户数据保留在设备端，解决了隐私问题。

实际意义

开发者工具 – MAI‑UI 可以包装成即插即用的 SDK 用于移动应用，实现自动化 UI 测试、应用内助手或无障碍辅助等功能，无需编写自定义脚本。
边缘优先部署 – 更小的 2 B/8 B 变体可以完全在设备上运行，适用于低功耗物联网设备、可穿戴设备或对隐私敏感的应用（例如银行应用）。
降低云成本 – 协作层意味着只有“硬”推理步骤会调用云端，从而在大规模部署（如企业设备 fleet）中大幅削减带宽和计算费用。
快速原型 – 自我演化的流水线会在应用更新时自动纳入新的 UI 模式，使开发者花在整理训练数据上的时间更少，更多时间用于构建功能。
跨平台一致性 – 由于同一模型系列能够处理 Android、iOS 和桌面 UI，团队可以在各平台维护单一的代理代码库，简化维护工作。

限制与未来工作

动态 UI 变异性 – 极度定制或快速变化的 UI 元素（例如动态广告）仍会导致偶发性失败。
最大模型的资源占用 – 235 B 参数的变体需要高端 GPU/TPU，当前仅在云环境下实用；需要进一步的模型压缩工作以实现更广泛的边缘使用。
评估范围 – 基准测试侧重于导航和定位；更丰富的多模态任务（例如语音引导的 UI 控制、跨文本和图形的多模态推理）仍未充分探索。
隐私保证 – 虽然设备端推理降低了数据泄露风险，但系统仍会偶尔将上下文发送至云端；计划进行正式的隐私审计并引入差分隐私机制。

未来方向 包括与操作系统可访问性 API 的更紧密集成，将强化学习课程扩展到多任务场景（例如表单填写 + 错误恢复），以及探索蒸馏技术，将接近最新水平的性能带入小于 100 MB 的模型。

作者

Hanzhang Zhou
Xu Zhang
Panrong Tong
Jianan Zhang
Liangyu Chen
Quyu Kong
Chenglin Cai
Chen Liu
Yue Wang
Jingren Zhou
Steven Hoi

论文信息

arXiv ID: 2512.22047v1
分类: cs.CV
发表时间: 2025年12月26日
PDF: 下载 PDF

[Paper] MAI-UI 技术报告：以真实世界为中心的基础 GUI 代理

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型