[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트

발행: 1개월 전 (2025년 12월 26일 오후 11:51 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.22047v1

개요

MAI‑UI 기술 보고서는 새로운 “기초 GUI 에이전트” 패밀리를 소개합니다. 이 에이전트들은 2 B 파라미터의 작은 모델부터 235 B 파라미터의 거대한 변형까지, 다양한 디바이스에서 실제 그래픽 사용자 인터페이스(GUI)를 이해하고 조작할 수 있습니다. 연구 프로토타입과 실제 배포 가능한 에이전트 사이의 격차를 해소함으로써, 저자들은 대규모 자체 진화형 에이전트가 현대 모바일 및 데스크톱 UI를 신뢰성 있게 탐색하고 조작할 수 있으며, 프라이버시를 보호하고 클라우드 의존도를 최소화한다는 것을 입증합니다.

주요 기여

다양한 파운데이션 GUI 에이전트 (2 B, 8 B, 32 B, 235 B‑A22 B) 로, 지연 시간, 연산 예산 또는 프라이버시 요구 사항에 따라 교체 가능.
자체 진화 데이터 파이프라인 은 실제 사용자 상호작용 및 툴 호출 트레이스를 지속적으로 추가하여 정적 UI 스크린샷을 풍부하고 행동 중심의 데이터셋으로 변환.
네이티브 디바이스‑클라우드 협업 아키텍처 는 작업을 디바이스 내 추론과 클라우드 기반 모델 사이에 라우팅하여 클라우드 호출을 >40 % 감소시키고 디바이스 속도를 33 % 향상.
확장 가능한 온라인 강화학습(RL) 프레임워크 로, 병렬 환경(최대 512 워커) 및 확장된 컨텍스트 윈도우에 대한 최적화를 통해 일관된 성능 향상을 제공.
최첨단 결과 를 다중 GUI 그라운딩(ScreenSpot‑Pro, MMBench L2, OSWorld‑G, UI‑Vision) 및 내비게이션 벤치마크(AndroidWorld, MobileWorld)에서 달성했으며, Gemini‑3‑Pro와 Seed 1.8 같은 주요 베이스라인을 능가.

방법론

Data Collection & Evolution – 기존 UI‑only 데이터셋에서 시작하여, 팀은 실제 환경에서 에이전트를 실행하고 user‑agent 상호작용 로그(클릭, 스와이프, 텍스트 입력)와 MCP (mobile‑cloud‑processing) 도구 호출을 캡처한 뒤 이를 학습 루프에 다시 투입합니다. 이는 실제 사용 패턴을 반영하는 지속적으로 개선되는 코퍼스를 생성합니다.
Model Architecture – 모든 에이전트는 공통 트랜스포머 백본을 공유하지만 크기가 다릅니다. 아키텍처는 GUI grounding head (픽셀‑to‑element 매핑)와 다음 UI 동작(예: 탭, 스크롤, 입력)을 예측하는 policy head를 추가로 포함합니다.
Device‑Cloud Collaboration – 디바이스상의 경량 런타임이 단계별로 다음 추론을 로컬에서 처리할지 클라우드 지원이 필요한지 결정합니다(예: 복잡한 추론). 이 결정은 현재 지연 시간 예산, 프라이버시 플래그, 모델 신뢰도를 기반으로 합니다.
Online RL Training – 에이전트는 Android/iOS UI 흐름을 모방한 시뮬레이션 환경 풀에서 미세 조정됩니다. 병렬성은 32개 환경에서 512개 환경으로 확장되고, 에피소드당 단계 예산은 15에서 50으로 증가하여 정책이 장기 전략을 학습할 수 있게 합니다.
Optimization Tricks – Gradient checkpointing, mixed‑precision training, 동적 컨텍스트‑길이 스케줄러를 활용해 235 B 모델에서도 메모리 사용량을 관리 가능한 수준으로 유지합니다.

결과 및 발견

벤치마크	메트릭 (높을수록 좋음)	MAI‑UI (최고 변형)	이전 최고
ScreenSpot‑Pro (GUI grounding)	정확도	73.5 %	Gemini‑3‑Pro (≈71 %)
MMBench GUI L2	정확도	91.3 %	Seed 1.8 (≈88 %)
OSWorld‑G	정확도	70.9 %	Gemini‑3‑Pro (≈68 %)
UI‑Vision	정확도	49.2 %	Seed 1.8 (≈45 %)
AndroidWorld (navigation)	성공률	76.7 %	UI‑Tars‑2 (≈73 %)
MobileWorld (navigation)	성공률	41.7 %	End‑to‑end GUI models (~30 %)

RL 스케일링 실험: 병렬 환경을 32 → 512로 늘리면 +5.2 % 포인트가 증가했으며; 단계 예산을 15 → 50으로 확대하면 +4.3 % 포인트가 증가했습니다.

네이티브 디바이스‑클라우드 시스템은 행동당 평균 지연 시간을 33 % 감소시키고, 클라우드 API 호출을 >40 % 줄였으며, 사용자 데이터를 디바이스에 보관하여 프라이버시 문제를 해결했습니다.

Practical Implications

Developer Tooling – MAI‑UI는 모바일 앱용 플러그‑인‑플레이 SDK로 래핑될 수 있어, 맞춤 스크립트를 작성하지 않아도 자동 UI 테스트, 인앱 어시스턴트, 접근성 도우미와 같은 기능을 구현할 수 있습니다.
Edge‑First Deployments – 2 B/8 B 소형 변형은 완전히 디바이스 내에서 실행되므로, 저전력 IoT 디바이스, 웨어러블, 혹은 프라이버시가 중요한 애플리케이션(예: 은행 앱)에 적합합니다.
Reduced Cloud Costs – 협업 레이어 덕분에 “하드” 추론 단계만 클라우드에 전달되어, 대규모 배포(예: 기업 디바이스 플릿) 시 대역폭 및 컴퓨팅 비용을 크게 절감합니다.
Rapid Prototyping – 자체 진화 파이프라인이 앱 업데이트에 따라 새로운 UI 패턴을 자동으로 반영하므로, 개발자는 학습 데이터 정제에 드는 시간을 줄이고 기능 개발에 더 많은 시간을 할애할 수 있습니다.
Cross‑Platform Consistency – 동일 모델 패밀리가 Android, iOS, 데스크톱 UI를 모두 처리할 수 있어, 팀이 플랫폼 간에 단일 에이전트 코드베이스를 유지할 수 있어 유지보수가 간소화됩니다.

제한 사항 및 향후 작업

동적 UI 변동성 – 매우 맞춤형이거나 빠르게 변하는 UI 요소(예: 동적 광고)는 여전히 가끔 실패를 일으킵니다.
대형 모델의 자원 요구량 – 235 B 파라미터 변형은 고성능 GPU/TPU가 필요하며 현재는 클라우드 환경에서만 실용적입니다; 보다 넓은 엣지 사용을 위해서는 추가적인 모델 압축 작업이 필요합니다.
평가 범위 – 벤치마크는 탐색 및 그라운딩에 초점을 맞추고 있으며, 음성 기반 UI 제어, 텍스트와 그래픽을 아우르는 멀티모달 추론과 같은 보다 풍부한 멀티모달 작업은 아직 충분히 탐구되지 않았습니다.
프라이버시 보장 – 온디바이스 추론이 데이터 노출을 줄이지만, 시스템은 여전히 가끔 컨텍스트를 클라우드로 전송합니다; 공식적인 프라이버시 감사와 차등 프라이버시 메커니즘을 도입할 계획입니다.

향후 방향으로는 OS 접근성 API와의 tighter integration, RL 커리큘럼을 멀티태스크 시나리오(예: 양식 입력 + 오류 복구)로 확장, 그리고 100 MB 이하 모델에서도 최첨단 성능에 근접하도록 하는 distillation 기법 탐구가 포함됩니다.

저자

Hanzhang Zhou
Xu Zhang
Panrong Tong
Jianan Zhang
Liangyu Chen
Quyu Kong
Chenglin Cai
Chen Liu
Yue Wang
Jingren Zhou
Steven Hoi

논문 정보

arXiv ID: 2512.22047v1
분류: cs.CV
출판일: 2025년 12월 26일
PDF: PDF 다운로드

[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론

[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing

[Paper] 연관 학습을 위한 Track-Detection Matching for Multi-Object Tracking

[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델