[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트
Source: arXiv - 2512.22047v1
개요
MAI‑UI 기술 보고서는 새로운 “기초 GUI 에이전트” 패밀리를 소개합니다. 이 에이전트들은 2 B 파라미터의 작은 모델부터 235 B 파라미터의 거대한 변형까지, 다양한 디바이스에서 실제 그래픽 사용자 인터페이스(GUI)를 이해하고 조작할 수 있습니다. 연구 프로토타입과 실제 배포 가능한 에이전트 사이의 격차를 해소함으로써, 저자들은 대규모 자체 진화형 에이전트가 현대 모바일 및 데스크톱 UI를 신뢰성 있게 탐색하고 조작할 수 있으며, 프라이버시를 보호하고 클라우드 의존도를 최소화한다는 것을 입증합니다.
주요 기여
- 다양한 파운데이션 GUI 에이전트 (2 B, 8 B, 32 B, 235 B‑A22 B) 로, 지연 시간, 연산 예산 또는 프라이버시 요구 사항에 따라 교체 가능.
- 자체 진화 데이터 파이프라인 은 실제 사용자 상호작용 및 툴 호출 트레이스를 지속적으로 추가하여 정적 UI 스크린샷을 풍부하고 행동 중심의 데이터셋으로 변환.
- 네이티브 디바이스‑클라우드 협업 아키텍처 는 작업을 디바이스 내 추론과 클라우드 기반 모델 사이에 라우팅하여 클라우드 호출을 >40 % 감소시키고 디바이스 속도를 33 % 향상.
- 확장 가능한 온라인 강화학습(RL) 프레임워크 로, 병렬 환경(최대 512 워커) 및 확장된 컨텍스트 윈도우에 대한 최적화를 통해 일관된 성능 향상을 제공.
- 최첨단 결과 를 다중 GUI 그라운딩(ScreenSpot‑Pro, MMBench L2, OSWorld‑G, UI‑Vision) 및 내비게이션 벤치마크(AndroidWorld, MobileWorld)에서 달성했으며, Gemini‑3‑Pro와 Seed 1.8 같은 주요 베이스라인을 능가.
방법론
-
Data Collection & Evolution – 기존 UI‑only 데이터셋에서 시작하여, 팀은 실제 환경에서 에이전트를 실행하고 user‑agent 상호작용 로그(클릭, 스와이프, 텍스트 입력)와 MCP (mobile‑cloud‑processing) 도구 호출을 캡처한 뒤 이를 학습 루프에 다시 투입합니다. 이는 실제 사용 패턴을 반영하는 지속적으로 개선되는 코퍼스를 생성합니다.
-
Model Architecture – 모든 에이전트는 공통 트랜스포머 백본을 공유하지만 크기가 다릅니다. 아키텍처는 GUI grounding head (픽셀‑to‑element 매핑)와 다음 UI 동작(예: 탭, 스크롤, 입력)을 예측하는 policy head를 추가로 포함합니다.
-
Device‑Cloud Collaboration – 디바이스상의 경량 런타임이 단계별로 다음 추론을 로컬에서 처리할지 클라우드 지원이 필요한지 결정합니다(예: 복잡한 추론). 이 결정은 현재 지연 시간 예산, 프라이버시 플래그, 모델 신뢰도를 기반으로 합니다.
-
Online RL Training – 에이전트는 Android/iOS UI 흐름을 모방한 시뮬레이션 환경 풀에서 미세 조정됩니다. 병렬성은 32개 환경에서 512개 환경으로 확장되고, 에피소드당 단계 예산은 15에서 50으로 증가하여 정책이 장기 전략을 학습할 수 있게 합니다.
-
Optimization Tricks – Gradient checkpointing, mixed‑precision training, 동적 컨텍스트‑길이 스케줄러를 활용해 235 B 모델에서도 메모리 사용량을 관리 가능한 수준으로 유지합니다.
결과 및 발견
| 벤치마크 | 메트릭 (높을수록 좋음) | MAI‑UI (최고 변형) | 이전 최고 |
|---|---|---|---|
| ScreenSpot‑Pro (GUI grounding) | 정확도 | 73.5 % | Gemini‑3‑Pro (≈71 %) |
| MMBench GUI L2 | 정확도 | 91.3 % | Seed 1.8 (≈88 %) |
| OSWorld‑G | 정확도 | 70.9 % | Gemini‑3‑Pro (≈68 %) |
| UI‑Vision | 정확도 | 49.2 % | Seed 1.8 (≈45 %) |
| AndroidWorld (navigation) | 성공률 | 76.7 % | UI‑Tars‑2 (≈73 %) |
| MobileWorld (navigation) | 성공률 | 41.7 % | End‑to‑end GUI models (~30 %) |
RL 스케일링 실험: 병렬 환경을 32 → 512로 늘리면 +5.2 % 포인트가 증가했으며; 단계 예산을 15 → 50으로 확대하면 +4.3 % 포인트가 증가했습니다.
네이티브 디바이스‑클라우드 시스템은 행동당 평균 지연 시간을 33 % 감소시키고, 클라우드 API 호출을 >40 % 줄였으며, 사용자 데이터를 디바이스에 보관하여 프라이버시 문제를 해결했습니다.
Practical Implications
- Developer Tooling – MAI‑UI는 모바일 앱용 플러그‑인‑플레이 SDK로 래핑될 수 있어, 맞춤 스크립트를 작성하지 않아도 자동 UI 테스트, 인앱 어시스턴트, 접근성 도우미와 같은 기능을 구현할 수 있습니다.
- Edge‑First Deployments – 2 B/8 B 소형 변형은 완전히 디바이스 내에서 실행되므로, 저전력 IoT 디바이스, 웨어러블, 혹은 프라이버시가 중요한 애플리케이션(예: 은행 앱)에 적합합니다.
- Reduced Cloud Costs – 협업 레이어 덕분에 “하드” 추론 단계만 클라우드에 전달되어, 대규모 배포(예: 기업 디바이스 플릿) 시 대역폭 및 컴퓨팅 비용을 크게 절감합니다.
- Rapid Prototyping – 자체 진화 파이프라인이 앱 업데이트에 따라 새로운 UI 패턴을 자동으로 반영하므로, 개발자는 학습 데이터 정제에 드는 시간을 줄이고 기능 개발에 더 많은 시간을 할애할 수 있습니다.
- Cross‑Platform Consistency – 동일 모델 패밀리가 Android, iOS, 데스크톱 UI를 모두 처리할 수 있어, 팀이 플랫폼 간에 단일 에이전트 코드베이스를 유지할 수 있어 유지보수가 간소화됩니다.
제한 사항 및 향후 작업
- 동적 UI 변동성 – 매우 맞춤형이거나 빠르게 변하는 UI 요소(예: 동적 광고)는 여전히 가끔 실패를 일으킵니다.
- 대형 모델의 자원 요구량 – 235 B 파라미터 변형은 고성능 GPU/TPU가 필요하며 현재는 클라우드 환경에서만 실용적입니다; 보다 넓은 엣지 사용을 위해서는 추가적인 모델 압축 작업이 필요합니다.
- 평가 범위 – 벤치마크는 탐색 및 그라운딩에 초점을 맞추고 있으며, 음성 기반 UI 제어, 텍스트와 그래픽을 아우르는 멀티모달 추론과 같은 보다 풍부한 멀티모달 작업은 아직 충분히 탐구되지 않았습니다.
- 프라이버시 보장 – 온디바이스 추론이 데이터 노출을 줄이지만, 시스템은 여전히 가끔 컨텍스트를 클라우드로 전송합니다; 공식적인 프라이버시 감사와 차등 프라이버시 메커니즘을 도입할 계획입니다.
향후 방향으로는 OS 접근성 API와의 tighter integration, RL 커리큘럼을 멀티태스크 시나리오(예: 양식 입력 + 오류 복구)로 확장, 그리고 100 MB 이하 모델에서도 최첨단 성능에 근접하도록 하는 distillation 기법 탐구가 포함됩니다.
저자
- Hanzhang Zhou
- Xu Zhang
- Panrong Tong
- Jianan Zhang
- Liangyu Chen
- Quyu Kong
- Chenglin Cai
- Chen Liu
- Yue Wang
- Jingren Zhou
- Steven Hoi
논문 정보
- arXiv ID: 2512.22047v1
- 분류: cs.CV
- 출판일: 2025년 12월 26일
- PDF: PDF 다운로드