[논문] iOSWorld: 개인 지능형 휴대폰 에이전트를 위한 벤치마크

발행: (2026년 6월 9일 AM 02:27 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.09764v1

개요

유용한 휴대폰 에이전트는 개인적으로 지능적이어야 합니다. 에이전트는 사용자의 정체성, 이력, 선호도를 기기 내에 존재하는 그대로 추론해야 하며, 단순히 비인격적인 샌드박스에서 격리된 명령만 수행해서는 안 됩니다. 기존 모바일 에이전트 벤치마크는 이러한 개인화 기능이 부족합니다. 우리는 26개의 새로 만든 iOS 앱에 걸쳐 지속적인 사용자 정체성을 기반으로 만든 최초의 인터랙티브 네이티브 iOS 시뮬레이터 벤치마크인 iOSWorld를 소개합니다. 이 앱들은 거래, 메시지, 여행 기록, 사회적 관계, 금융 활동 등 서로 연결된 데이터를 포함합니다. iOSWorld는 난이도가 점점 높아지는 세 가지 카테고리로 구성된 133개의 과제를 제공합니다. 단일 앱 과제(27개)는 하나의 앱을 테스트하고, 다중 앱 과제(60개)는 2~8개의 앱에 걸쳐 진행되며, 기억 및 개인화 과제(46개)는 에이전트가 개인 데이터를 기반으로 패턴을 추론하도록 요구합니다. 우리는 비전 전용 설정과 특권 비전+XML 설정 모두에서 최첨단 및 오픈소스 컴퓨터 사용 모델을 평가했습니다. 최고의 구성은 전체에서 52%의 정확도를 달성했지만 다중 앱 과제에서는 37%에 그쳤습니다. 특권 비전+XML 접근은 최첨단 모델의 성능을 최대 26 퍼센트 포인트 향상시켰으며, 작은 모델들은 추가된 접근성 트리 입력으로부터 이점을 얻지 못했습니다. 우리는 모든 앱, 시드 데이터, 과제, 평가 기준 및 평가 코드를 포함한 iOSWorld를 오픈소스 벤치마크로 공개합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.LG
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Lawrence Keunho Jang
  • Mareks Woodside
  • Geronimo Carom
  • Andrew Keunwoo Jang
  • Jing Yu Koh
  • Ruslan Salakhutdinov

논문 정보

  • arXiv ID: 2606.09764v1
  • 분류: cs.LG, cs.CL
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »