[Paper] 사용자 인터페이스에서 에이전트 인터페이스로: LLM 에이전트를 위한 UI 표현의 효율성 최적화

발행: 3일 전 (2025년 12월 16일 오전 12:34 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2512.13438v1

Overview

이 논문은 UIFormer라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 사용자 인터페이스(UI) 표현을 자동으로 재작성하여 대형 언어 모델(LLM) 에이전트가 더 컴팩트하게 처리할 수 있도록 합니다. LLM이 처리해야 하는 UI “토큰” 데이터 양을 줄임으로써 UIFormer은 자동 UI 테스트, AI‑구동 어시스턴트, 크로스‑플랫폼 네비게이션과 같은 작업을 정확성을 희생하지 않고 가속화합니다.

주요 기여

LLM 에이전트를 위한 최초의 자동 UI‑표현 최적화기로, 토큰 효율성과 기능 완전성을 모두 해결합니다.
도메인 특화 언어(DSL) 로 일반 UI 변환 기본 연산(예: 보이지 않는 노드 제거, 유사 위젯 병합)을 인코딩합니다.
제약 기반 합성 + LLM 가이드 정제: 프로그램 탐색 공간을 좁히고 정확성 및 효율성 보상을 사용해 솔루션을 반복적으로 개선하는 두 단계 파이프라인입니다.
경량 플러그인 아키텍처 로 기존 LLM 기반 에이전트에 최소한의 코드 변경만으로 삽입할 수 있습니다.
광범위한 평가 를 Android 및 Web UI 탐색 벤치마크(3개 데이터셋, 5개 LLM 백엔드)에서 수행했으며, 토큰을 48 %–56 % 감소시키고 동일하거나 더 나은 작업 성능을 보여줍니다.
실제 적용 검증 으로 WeChat UI 자동화 파이프라인에 배포하여 산업적 관련성을 확인했습니다.

Methodology

Problem Formulation – 저자들은 UI 최적화를 프로그램 합성 작업으로 본다: 원시 UI 트리를 입력으로 받아, 더 작고 의미적으로 동등한 표현을 출력하는 변환 프로그램을 합성한다.
DSL Design – DSL은 소수의 UI‑특화 연산자(remove_hidden, collapse_group, abstract_text 등)만 포함한다. 이는 탐색 공간을 제한하고 생성된 프로그램이 UI 도메인 내에 머물도록 보장한다.
Constraint‑Based Decomposition – UIFormer는 먼저 큰 합성 문제를 작은 하위 문제(예: 화면 영역별)로 나눈 뒤, 정적 제약조건(타입 안전성, 계층 구조 보존)을 적용해 잘못된 프로그램을 조기에 제거한다.
LLM‑Driven Iterative Refinement – 선택된 LLM(예: GPT‑4, Claude)이 후보 프로그램을 제안한다. 각 후보는 두 가지 보상으로 평가된다:
- Correctness reward – 변환된 UI가 여전히 일련의 기능 테스트(예: 목표 위젯을 찾을 수 있음)를 통과하는지 확인한다.
- Efficiency reward – 토큰 수 감소량을 측정한다.
  LLM은 두 보상이 모두 수렴할 때까지 프로그램을 개선하도록 프롬프트된다.
Plug‑in Integration – UIFormer는 전처리 단계로 실행된다: 에이전트는 최적화된 UI 표현을 받아 정상적인 추론을 수행하고, 필요에 따라 플러그인이 결과를 원래 UI로 다시 후처리할 수 있다.

결과 및 발견

Benchmark	LLM	Token Reduction	Agent Success Rate
Android UI‑Nav (3k screens)	GPT‑4	52.3 %	+1.2 %
Web UI‑Nav (2.5k pages)	Claude 2	48.7 %	unchanged
Mixed‑Platform (1.8k screens)	Llama‑2‑70B	55.8 %	+0.8 %

런타임 오버헤드는 UI당 120 ms 이하로 유지되어 LLM 추론 시간에 비해 무시할 수 있는 수준이었습니다.
견고성: 전체 사례의 >95 %에서 변환된 UI가 원본과 동일한 기능 테스트 스위트를 통과했으며, 의미 보존을 확인했습니다.
산업 현장 적용: 위챗에서 UIFormer는 평균 API 페이로드 크기를 약 50 % 줄이고 UI 자동화 봇의 종단‑간 지연을 약 30 ms 감소시켜 일일 자동 테스트 실행의 처리량을 높였습니다.

실용적인 시사점

더 빠른 LLM 에이전트 – UI 페이로드가 작아지면 LLM이 임베드해야 할 컨텍스트가 줄어들어 토큰 기반 비용(예: OpenAI API 가격)과 추론 지연 시간이 직접 감소합니다.
확장 가능한 UI 자동화 – 팀은 동일한 하드웨어 예산으로 더 많은 동시 UI‑테스트 봇을 실행할 수 있어, 특히 대규모 모바일/웹 앱 스위트에 유용합니다.
엣지 배포 – 대역폭이 제한된 디바이스(예: IoT 대시보드)에서는 압축된 UI 표현을 전송함으로써 실시간 LLM 지원이 용이해집니다.
플러그‑앤‑플레이 채택 – UIFormer가 얇은 전처리기이므로 기존 코드베이스(Selenium, Appium, 맞춤 UI 에이전트)를 핵심 로직을 다시 작성하지 않고도 업그레이드할 수 있습니다.
크로스‑플랫폼 일관성 – DSL이 플랫폼‑특정 특성을 추상화하여 Android, iOS, 웹 UI에 대해 단일 최적화 파이프라인을 사용할 수 있게 합니다.

제한 사항 및 향후 작업

기능 테스트 오라클에 대한 의존성 – 정확도 보상은 UI‑레벨 테스트 집합에 의존합니다; 포괄적인 테스트 스위트가 부족한 도메인에서는 의미 보존을 보장하기가 더 어려울 수 있습니다.
DSL 표현력 – 현재 DSL이 일반적인 프루닝 및 추상화 패턴을 다루지만, 특수 UI 위젯(맞춤 캔버스 요소, AR 오버레이 등)은 확장이 필요할 수 있습니다.
LLM 편향 – 반복적 정제 단계는 기본 LLM의 환각 경향을 물려받으며, 안전이 중요한 애플리케이션에서는 가끔 수동 검토가 여전히 필요할 수 있습니다.
저자들이 제시한 향후 방향은 다음과 같습니다:
1. 대규모 UI 코퍼스에서 데이터‑기반 DSL 학습.
2. 수작업 보상을 대체하기 위한 강화 학습 통합.
3. UIFormer를 확장하여 동적·이벤트‑기반 UI 상태(예: 애니메이션, 지연‑로드 콘텐츠)를 처리하도록 함.

저자

Dezhi Ran
Zhi Gong
Yuzhe Guo
Mengzhou Wu
Yuan Cao
Haochuan Lu
Hengyu Zhang
Xia Zeng
Gang Cao
Liangchao Yao
Yuetang Deng
Wei Yang
Tao Xie

논문 정보

arXiv ID: 2512.13438v1
분류: cs.SE, cs.AI
출판일: 2025년 12월 15일
PDF: PDF 다운로드

[Paper] 사용자 인터페이스에서 에이전트 인터페이스로: LLM 에이전트를 위한 UI 표현의 효율성 최적화

Overview

주요 기여

Methodology

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Spatia: 업데이트 가능한 공간 메모리를 이용한 비디오 생성

[Paper] Predictive Concept Decoders: 확장 가능한 End-to-End 해석 보조 도구 훈련

[Paper] Artism: AI 기반 이중 엔진 시스템을 통한 예술 생성 및 비평

[Paper] 희소 생물학적 데이터로부터 방광암 복합 치료의 모델 파라미터 동역학 학습