[Paper] AndroidLens: Android GUI 에이전트를 위한 중첩 서브 타깃을 활용한 장기 지연 평가

발행: (2025년 12월 25일 오전 02:40 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.21302v1

Overview

이 논문은 Android 기기에서 장시간 지연 작업을 자동화하는 모바일 GUI 에이전트를 엄격히 평가하기 위해 설계된 새로운 벤치마크 AndroidLens를 소개합니다. 38개 도메인(중국어 및 영어)에서 571개의 실제 작업을 수집하고, 세분화된 진행 메트릭을 도입함으로써, 저자들은 최신 에이전트들의 현재 한계를 드러내고 구체적인 연구 및 엔지니어링 격차를 제시합니다.

주요 기여

  • 대규모·다양한 작업 스위트 – 38개 응용 분야의 실제 사용자 시나리오에서 추출한 571개의 다단계 작업(평균 > 26개의 액션).
  • 중첩된 하위 목표 설계 – 각 작업을 계층적 하위 목표로 분할하여 고수준 성공과 중간 추론 모두를 평가 가능하게 함.
  • 다중 유효 경로를 허용하는 정적 평가 – 실제 UI 이상 현상(광고, 팝업, 레이아웃 변경)을 유지하면서도 여러 올바른 실행 트레이스를 허용해 단일 “골드” 경로에 대한 편향을 감소시킴.
  • 동적 마일스톤 기반 메트릭(평균 작업 진행도, ATP) – 이진 성공/실패 대신 세밀한 진행도를 측정해 부분적인 역량을 파악할 수 있게 함.
  • 포괄적인 베이스라인 연구 – 여러 선도 GUI‑에이전트 모델을 평가한 결과, 최고 12.7 % 작업 성공률과 50.47 % ATP를 기록했으며, 장시간 지연 자동화의 어려움을 강조함.

방법론

  1. 작업 수집 – 저자들은 사용자 포럼, 지원 티켓, 그리고 크라우드소싱 스크립트를 마이닝하여 현실적인 자동화 시나리오(예: “크기 제한이 있는 사진 일괄 업로드”, “캡차를 처리하면서 기차 티켓 예약”)를 추출했습니다.
  2. 작업 주석 – 각 시나리오는 하위 목표 계층(예: “앱 열기 → 설정으로 이동 → 옵션 토글”)으로 주석이 달립니다. UI 변동성을 반영하기 위해 여러 유효한 UI 경로가 기록됩니다.
  3. 정적 평가 – 에이전트는 앱 UI의 고정 스냅샷에 대해 실행됩니다. 시스템은 에이전트가 기록된 유효 경로 중 하나를 따르는지 확인하고, 광고나 레이아웃 이동과 같은 UI 이상 현상을 허용합니다.
  4. 동적 평가 – 에이전트가 실시간 디바이스와 상호작용하는 동안, 프레임워크는 마일스톤(미리 정의된 체크포인트)을 삽입합니다. 각 행동 후에 완료된 마일스톤 비율을 계산하여 평균 작업 진행도 (ATP) 점수를 산출합니다.
  5. 베이스라인 모델 – 연구에서는 동일한 조건 하에 여러 최신 비전‑언어 에이전트(예: Pix2Seq 기반, Transformer 기반 UI 파서)를 테스트하고, 성공률과 ATP를 보고합니다.

결과 및 발견

지표최상 모델모델 평균
작업 성공률12.7 %5.3 %
평균 작업 진행률 (ATP)50.47 %31.2 %
  • 강력한 언어 모델에도 불구하고 낮은 성공률 – 최고 성능 에이전트조차도 작업의 약 87 %에서 실패하며, 장시간 지연 및 다중 제약 자동화가 아직 해결되지 않은 문제임을 확인한다.
  • 부분적인 진행이 일반적 – 많은 에이전트가 대략 절반 정도의 마일스톤을 달성하는데, 이는 UI 구조를 탐색할 수는 있지만 제약 조건, 오류 처리 또는 메모리 의존 단계에서 어려움을 겪는다는 것을 의미한다.
  • 주요 실패 유형:
    • 환경 이상: 예상치 못한 팝업, 동적 광고, UI 레이아웃 변경이 고정된 액션 시퀀스를 깨뜨린다.
    • 적응형 탐색: 에이전트가 언제 되돌아가거나 대체 UI 경로를 시도해야 할지 판단하지 못하는 경우가 많다.
    • 장기 메모리: 20단계 이상에 걸쳐 정보를 유지하는 것(예: 인증 코드)은 아직 신뢰할 수 없다.

실용적인 시사점

  • 기업 자동화를 위한 도구 – 반복적인 모바일 워크플로(예: 대량 데이터 입력, 티켓 예약)를 자동화하려는 기업은 기대치를 낮춰야 합니다; 현재 에이전트는 프로덕션 수준의 신뢰성을 달성하기 위해 상당한 엔지니어링(폴백 처리, 커스텀 스크립트)이 필요합니다.
  • 벤치마크 기반 개발 – AndroidLens는 맞춤형 GUI 봇을 구축하는 개발자를 위해 즉시 사용 가능한 테스트 스위트를 제공하여 UI 잡음 및 다단계 추론에 대한 견고성을 빠르게 반복할 수 있게 합니다.
  • 하이브리드 접근법 – 성공과 ATP 사이의 격차는 유망한 방향을 시사합니다: 비전‑언어 에이전트를 규칙 기반 컨트롤러나 메모리 모듈(예: 외부 키‑값 저장소)과 결합하여 제약 조건 및 장기 상태를 처리합니다.
  • 다언어 지원 – 중국어와 영어 작업을 모두 포함한 것은 다국어 UI 이해의 필요성을 강조하며, 이는 글로벌 앱 및 현지화 파이프라인에 관련됩니다.

제한 사항 및 향후 작업

  • 정적 스냅샷 편향 – 이상 현상을 보존하면서도 정적 모드에서는 런타임 성능 변동(네트워크 지연, 백그라운드 프로세스)을 포착할 수 없습니다.
  • 도메인 커버리지 – 38개의 도메인이 폭넓지만, 엄격한 보안 흐름을 요구하는 금융, 의료 등 일부 엔터프라이즈 급 애플리케이션은 포함되지 않았습니다.
  • 메모리 평가 – 벤치마크는 진행 상황을 측정하지만 메모리‑특화 오류를 별도로 분리하지는 않습니다; 향후 작업에서는 명시적인 “리콜” 체크포인트를 추가할 수 있습니다.
  • 에이전트 다양성 – 기본 연구는 몇몇 공개 모델에 초점을 맞추고 있으므로, 독점 모델이나 신흥 멀티모달 에이전트로 확장하면 벤치마크 난이도를 더욱 검증할 수 있습니다.

AndroidLens는 모바일 GUI 자동화 연구의 기준을 한 단계 높이고, 개발자에게 현재 AI 에이전트가 실제 프로덕션 환경에서 얼마나 유용한지 평가할 수 있는 현실적인 척도를 제공합니다.

저자

  • Yue Cao
  • Yingyao Wang
  • Pi Bu
  • Jingxuan Xing
  • Wei Jiang
  • Zekun Zhu
  • Junpeng Ma
  • Sashuai Zhou
  • Tong Lu
  • Jun Song
  • Yu Cheng
  • Yuning Jiang
  • Bo Zheng

논문 정보

  • arXiv ID: 2512.21302v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »