[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트

발행: (2025년 12월 26일 오후 11:51 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.22047v1

개요

MAI‑UI 기술 보고서는 새로운 “기초 GUI 에이전트” 패밀리를 소개합니다. 이 에이전트들은 2 B 파라미터의 작은 모델부터 235 B 파라미터의 거대한 변형까지, 다양한 디바이스에서 실제 그래픽 사용자 인터페이스(GUI)를 이해하고 조작할 수 있습니다. 연구 프로토타입과 실제 배포 가능한 에이전트 사이의 격차를 해소함으로써, 저자들은 대규모 자체 진화형 에이전트가 현대 모바일 및 데스크톱 UI를 신뢰성 있게 탐색하고 조작할 수 있으며, 프라이버시를 보호하고 클라우드 의존도를 최소화한다는 것을 입증합니다.

주요 기여

  • 다양한 파운데이션 GUI 에이전트 (2 B, 8 B, 32 B, 235 B‑A22 B) 로, 지연 시간, 연산 예산 또는 프라이버시 요구 사항에 따라 교체 가능.
  • 자체 진화 데이터 파이프라인 은 실제 사용자 상호작용 및 툴 호출 트레이스를 지속적으로 추가하여 정적 UI 스크린샷을 풍부하고 행동 중심의 데이터셋으로 변환.
  • 네이티브 디바이스‑클라우드 협업 아키텍처 는 작업을 디바이스 내 추론과 클라우드 기반 모델 사이에 라우팅하여 클라우드 호출을 >40 % 감소시키고 디바이스 속도를 33 % 향상.
  • 확장 가능한 온라인 강화학습(RL) 프레임워크 로, 병렬 환경(최대 512 워커) 및 확장된 컨텍스트 윈도우에 대한 최적화를 통해 일관된 성능 향상을 제공.
  • 최첨단 결과 를 다중 GUI 그라운딩(ScreenSpot‑Pro, MMBench L2, OSWorld‑G, UI‑Vision) 및 내비게이션 벤치마크(AndroidWorld, MobileWorld)에서 달성했으며, Gemini‑3‑Pro와 Seed 1.8 같은 주요 베이스라인을 능가.

방법론

  1. Data Collection & Evolution – 기존 UI‑only 데이터셋에서 시작하여, 팀은 실제 환경에서 에이전트를 실행하고 user‑agent 상호작용 로그(클릭, 스와이프, 텍스트 입력)와 MCP (mobile‑cloud‑processing) 도구 호출을 캡처한 뒤 이를 학습 루프에 다시 투입합니다. 이는 실제 사용 패턴을 반영하는 지속적으로 개선되는 코퍼스를 생성합니다.

  2. Model Architecture – 모든 에이전트는 공통 트랜스포머 백본을 공유하지만 크기가 다릅니다. 아키텍처는 GUI grounding head (픽셀‑to‑element 매핑)와 다음 UI 동작(예: 탭, 스크롤, 입력)을 예측하는 policy head를 추가로 포함합니다.

  3. Device‑Cloud Collaboration – 디바이스상의 경량 런타임이 단계별로 다음 추론을 로컬에서 처리할지 클라우드 지원이 필요한지 결정합니다(예: 복잡한 추론). 이 결정은 현재 지연 시간 예산, 프라이버시 플래그, 모델 신뢰도를 기반으로 합니다.

  4. Online RL Training – 에이전트는 Android/iOS UI 흐름을 모방한 시뮬레이션 환경 풀에서 미세 조정됩니다. 병렬성은 32개 환경에서 512개 환경으로 확장되고, 에피소드당 단계 예산은 15에서 50으로 증가하여 정책이 장기 전략을 학습할 수 있게 합니다.

  5. Optimization Tricks – Gradient checkpointing, mixed‑precision training, 동적 컨텍스트‑길이 스케줄러를 활용해 235 B 모델에서도 메모리 사용량을 관리 가능한 수준으로 유지합니다.

결과 및 발견

벤치마크메트릭 (높을수록 좋음)MAI‑UI (최고 변형)이전 최고
ScreenSpot‑Pro (GUI grounding)정확도73.5 %Gemini‑3‑Pro (≈71 %)
MMBench GUI L2정확도91.3 %Seed 1.8 (≈88 %)
OSWorld‑G정확도70.9 %Gemini‑3‑Pro (≈68 %)
UI‑Vision정확도49.2 %Seed 1.8 (≈45 %)
AndroidWorld (navigation)성공률76.7 %UI‑Tars‑2 (≈73 %)
MobileWorld (navigation)성공률41.7 %End‑to‑end GUI models (~30 %)

RL 스케일링 실험: 병렬 환경을 32 → 512로 늘리면 +5.2 % 포인트가 증가했으며; 단계 예산을 15 → 50으로 확대하면 +4.3 % 포인트가 증가했습니다.

네이티브 디바이스‑클라우드 시스템은 행동당 평균 지연 시간을 33 % 감소시키고, 클라우드 API 호출을 >40 % 줄였으며, 사용자 데이터를 디바이스에 보관하여 프라이버시 문제를 해결했습니다.

Practical Implications

  • Developer Tooling – MAI‑UI는 모바일 앱용 플러그‑인‑플레이 SDK로 래핑될 수 있어, 맞춤 스크립트를 작성하지 않아도 자동 UI 테스트, 인앱 어시스턴트, 접근성 도우미와 같은 기능을 구현할 수 있습니다.
  • Edge‑First Deployments – 2 B/8 B 소형 변형은 완전히 디바이스 내에서 실행되므로, 저전력 IoT 디바이스, 웨어러블, 혹은 프라이버시가 중요한 애플리케이션(예: 은행 앱)에 적합합니다.
  • Reduced Cloud Costs – 협업 레이어 덕분에 “하드” 추론 단계만 클라우드에 전달되어, 대규모 배포(예: 기업 디바이스 플릿) 시 대역폭 및 컴퓨팅 비용을 크게 절감합니다.
  • Rapid Prototyping – 자체 진화 파이프라인이 앱 업데이트에 따라 새로운 UI 패턴을 자동으로 반영하므로, 개발자는 학습 데이터 정제에 드는 시간을 줄이고 기능 개발에 더 많은 시간을 할애할 수 있습니다.
  • Cross‑Platform Consistency – 동일 모델 패밀리가 Android, iOS, 데스크톱 UI를 모두 처리할 수 있어, 팀이 플랫폼 간에 단일 에이전트 코드베이스를 유지할 수 있어 유지보수가 간소화됩니다.

제한 사항 및 향후 작업

  • 동적 UI 변동성 – 매우 맞춤형이거나 빠르게 변하는 UI 요소(예: 동적 광고)는 여전히 가끔 실패를 일으킵니다.
  • 대형 모델의 자원 요구량 – 235 B 파라미터 변형은 고성능 GPU/TPU가 필요하며 현재는 클라우드 환경에서만 실용적입니다; 보다 넓은 엣지 사용을 위해서는 추가적인 모델 압축 작업이 필요합니다.
  • 평가 범위 – 벤치마크는 탐색 및 그라운딩에 초점을 맞추고 있으며, 음성 기반 UI 제어, 텍스트와 그래픽을 아우르는 멀티모달 추론과 같은 보다 풍부한 멀티모달 작업은 아직 충분히 탐구되지 않았습니다.
  • 프라이버시 보장 – 온디바이스 추론이 데이터 노출을 줄이지만, 시스템은 여전히 가끔 컨텍스트를 클라우드로 전송합니다; 공식적인 프라이버시 감사와 차등 프라이버시 메커니즘을 도입할 계획입니다.

향후 방향으로는 OS 접근성 API와의 tighter integration, RL 커리큘럼을 멀티태스크 시나리오(예: 양식 입력 + 오류 복구)로 확장, 그리고 100 MB 이하 모델에서도 최첨단 성능에 근접하도록 하는 distillation 기법 탐구가 포함됩니다.

저자

  • Hanzhang Zhou
  • Xu Zhang
  • Panrong Tong
  • Jianan Zhang
  • Liangyu Chen
  • Quyu Kong
  • Chenglin Cai
  • Chen Liu
  • Yue Wang
  • Jingren Zhou
  • Steven Hoi

논문 정보

  • arXiv ID: 2512.22047v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 26일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »