[논문] iOSWorld: 개인 지능형 휴대폰 에이전트를 위한 벤치마크

발행: 3일 전 (2026년 6월 9일 AM 02:27 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.09764v1

개요

유용한 휴대폰 에이전트는 개인적으로 지능적이어야 합니다. 에이전트는 사용자의 정체성, 이력, 선호도를 기기 내에 존재하는 그대로 추론해야 하며, 단순히 비인격적인 샌드박스에서 격리된 명령만 수행해서는 안 됩니다. 기존 모바일 에이전트 벤치마크는 이러한 개인화 기능이 부족합니다. 우리는 26개의 새로 만든 iOS 앱에 걸쳐 지속적인 사용자 정체성을 기반으로 만든 최초의 인터랙티브 네이티브 iOS 시뮬레이터 벤치마크인 iOSWorld를 소개합니다. 이 앱들은 거래, 메시지, 여행 기록, 사회적 관계, 금융 활동 등 서로 연결된 데이터를 포함합니다. iOSWorld는 난이도가 점점 높아지는 세 가지 카테고리로 구성된 133개의 과제를 제공합니다. 단일 앱 과제(27개)는 하나의 앱을 테스트하고, 다중 앱 과제(60개)는 2~8개의 앱에 걸쳐 진행되며, 기억 및 개인화 과제(46개)는 에이전트가 개인 데이터를 기반으로 패턴을 추론하도록 요구합니다. 우리는 비전 전용 설정과 특권 비전+XML 설정 모두에서 최첨단 및 오픈소스 컴퓨터 사용 모델을 평가했습니다. 최고의 구성은 전체에서 52%의 정확도를 달성했지만 다중 앱 과제에서는 37%에 그쳤습니다. 특권 비전+XML 접근은 최첨단 모델의 성능을 최대 26 퍼센트 포인트 향상시켰으며, 작은 모델들은 추가된 접근성 트리 입력으로부터 이점을 얻지 못했습니다. 우리는 모든 앱, 시드 데이터, 과제, 평가 기준 및 평가 코드를 포함한 iOSWorld를 오픈소스 벤치마크로 공개합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

cs.LG
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Lawrence Keunho Jang
Mareks Woodside
Geronimo Carom
Andrew Keunwoo Jang
Jing Yu Koh
Ruslan Salakhutdinov

논문 정보

arXiv ID: 2606.09764v1
분류: cs.LG, cs.CL
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] iOSWorld: 개인 지능형 휴대폰 에이전트를 위한 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?