[Paper] GUI‑Libra: 네이티브 GUI 에이전트를 훈련시켜 행동 인식 감독 및 부분 검증 가능한 RL로 추론하고 행동하기

발행: 3일 전 (2026년 2월 26일 오전 03:34 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2602.22190v1

Overview

GUI‑Libra는 특히 다단계 웹 또는 모바일 워크플로와 같은 장기 작업에서 오픈소스와 상용 GUI 자동화 에이전트 간의 지속적인 격차를 해결합니다. 데이터 파이프라인과 파인‑튜닝/강화‑학습 단계를 재설계함으로써, 저자들은 네이티브 에이전트가 방대한 온라인 상호작용 데이터 없이도 성공률을 크게 높일 수 있음을 보여줍니다.

주요 기여

정제된 추론 데이터셋: 웹 및 모바일 GUI를 위한 81 K 고품질 “reason‑then‑act” 예시로, 체계적인 구축‑및‑필터링 파이프라인을 통해 구축됨.
액션 인식 감독 미세조정 (SFT): 순수 추론 트레이스와 직접 행동 예시를 혼합한 데이터 전략에 토큰 수준 재가중을 추가해 모델이 행동 근거에 집중하도록 함.
부분 검증 가능성 하에서 안정화된 RL: RL‑with‑verification‑reward (RLVR) 루프를 위한 KL‑정규화 신뢰 영역 도입 및 환경이 모호할 때 잡음이 많은 부정적 업데이트를 감소시키는 성공 적응형 그래디언트 스케일링.
실증적 검증: 여러 공개 웹 자동화 (예: MiniWoB) 및 모바일 자동화 벤치마크에서 일관된 향상을 보이며 단계별 정확도와 엔드‑투‑엔드 작업 완료율을 모두 개선.
오픈 리소스: 81 K 데이터셋, 학습 코드, 사전 학습 모델을 커뮤니티에 공개.

방법론

데이터 구축 및 필터링
- 기존 GUI 에이전트와 인간 시연으로부터 수집한 원시 상호작용 로그를 수집했습니다.
- 휴리스틱 필터(액션‑토큰 일관성, 언어 유창성, 중복 제거)를 적용하여 자연어 추론이 이후 UI 액션과 밀접하게 일치하는 트레이스만 남겼습니다.
- 결과: 버튼, 드롭다운, 제스처 등 다양한 UI 요소를 포괄하는 깨끗하고 다양성 있는 코퍼스가 생성되었습니다.
액션 인식 감독 미세조정
- 순수 체인‑오브‑쏘트(CoT) 프롬프트 대신, 훈련 혼합에 다음이 포함됩니다:
  - Reason‑then‑action 예시(텍스트 추론 뒤에 정확한 UI 명령이 따라옴).
  - Direct‑action 예시(추론 없이 올바른 UI 명령만).
- 토큰 수준 손실 재가중치를 통해 액션 토큰과 UI 식별자에 대한 그래디언트를 증폭시켜, 모델이 추론을 유지하면서도 실제 상황에 기반하도록 장려합니다.
부분 검증 가능성을 갖는 강화학습(RLVR)
- 전통적인 단계별 RL은 단일 시연 액션을 유일한 “정답”으로 간주하지만, 실제로는 여러 액션이 유효할 수 있습니다. 이는 부분 검증 가능성 문제를 야기해 오프라인 지표를 악화시킵니다.
- GUI‑Libra는 정책이 SFT 베이스라인에서 너무 멀어지는 것을 벌점화하는 KL‑정규화 항을 추가하여, 실질적으로 신뢰 영역을 형성합니다.
- 성공 적응 스케일링 팩터가 온라인 에피소드 결과를 모니터링합니다; 에이전트가 성공하면, 불일치 액션으로 인한 부정적 그래디언트가 완화되어 대안적 유효 움직임에 대한 과도한 벌점을 방지합니다.
훈련 파이프라인
- 단계 1: 정제된 81 K 데이터셋에 대한 액션 인식 SFT.
- 단계 2: 소규모 오프라인 트래젝터리에 대한 KL‑정규화 RLVR 수행 후, 성능을 다듬기 위해 짧은 온라인 미세조정(선택적)을 진행합니다.

결과 및 발견

벤치마크	베이스라인 (SFT‑only)	GUI‑Libra (SFT + RLVR)	↑ 엔드‑투‑엔드 성공률
MiniWoB (web)	48 %	66 %	+18 pp
Mobile‑Env (Android)	42 %	61 %	+19 pp
Step‑wise Accuracy (average)	71 %	84 %	+13 pp

오프라인 지표가 예측력을 갖게 됨: KL‑regularized RLVR이 온라인 성공과 강하게 상관관계(ρ ≈ 0.78)를 보이며, 이전 연구에서 관찰된 “부분 검증 가능성” 단절을 해결합니다.
소거 연구 결과, action‑aware token 재가중치 또는 KL trust region 중 하나를 제거하면 성능이 약 7‑9 pp 감소함을 보여주며, 각 구성 요소의 필요성을 확인합니다.
데이터 효율성: 약 10 K 추가 파인튜닝 단계만으로도 모델이 수백만 번의 온라인 상호작용이 필요했던 폐쇄형 베이스라인과 동등하거나 능가합니다.

Practical Implications

Faster prototyping of UI bots: 개발자는 이제 공개된 81 K 데이터셋으로 사전 학습된 언어 모델을 미세 조정하여 몇 시간 안에 충분히 성능 있는 GUI 에이전트를 얻을 수 있으며, 비용이 많이 드는 데이터 수집을 몇 주 동안 할 필요가 없습니다.
More reliable automation scripts: 액션 인식 SFT는 모델이 올바르게 추론했지만 범위를 벗어난 UI 명령을 내리는 “환상 클릭”을 감소시킵니다. 이는 현재 오픈소스 에이전트에서 흔히 겪는 문제점입니다.
Safer RL deployment: KL 신뢰 구역은 내장된 안전 장치 역할을 하여 온라인 학습 중 정책이 과도하게 탐색적(그리고 잠재적으로 파괴적인) 행동을 취하는 것을 방지합니다—UI 충돌을 감당할 수 없는 프로덕션 환경에 필수적입니다.
Cross‑platform applicability: 데이터셋이 웹과 모바일 상호작용을 모두 포함하고 있기 때문에 동일한 미세 조정 파이프라인을 데스크톱, 웹, 모바일 자동화 도구에 재사용할 수 있어 다중 플랫폼 봇의 진입 장벽을 낮춥니다.

Limitations & Future Work

Partial verifiability still relies on a single demonstrated action; while KL regularization mitigates the issue, truly multi‑modal verification (e.g., using UI state equivalence classes) remains unexplored. → 부분적인 검증 가능성은 여전히 단일 시연 행동에 의존합니다; KL 정규화가 문제를 완화하지만, UI 상태 동등 클래스 등을 활용한 진정한 다중 모달 검증은 아직 탐구되지 않았습니다.
Dataset bias: The curated 81 K examples are drawn from a limited set of popular apps and websites; performance may degrade on niche or highly dynamic UIs. → 데이터셋 편향: 선별된 81 K개의 예시는 제한된 인기 앱 및 웹사이트에서 추출되었습니다; 특수하거나 매우 동적인 UI에서는 성능이 저하될 수 있습니다.
Scalability of RLVR: The current RL loop is offline‑heavy; extending it to large‑scale, on‑device learning (e.g., edge mobile agents) will require more efficient credit‑assignment methods. → RLVR의 확장성: 현재 RL 루프는 오프라인 중심이며; 이를 대규모, 디바이스 내 학습(예: 엣지 모바일 에이전트)으로 확장하려면 보다 효율적인 크레딧 할당 방법이 필요합니다.
User intent handling: The work assumes well‑specified natural‑language goals; integrating ambiguous or multi‑intent queries is an open research direction. → 사용자 의도 처리: 이 연구는 명확히 정의된 자연어 목표를 전제로 합니다; 모호하거나 다중 의도 쿼리를 통합하는 것은 아직 연구가 필요한 분야입니다.

GUI‑Libra는 신중한 데이터 선별과 학습 레시피가 오픈소스 GUI 에이전트의 성능 격차를 메울 수 있음을 보여주며, 신뢰할 수 있고 추론 능력을 갖춘 자동화 도구를 구축하고자 하는 개발자들을 위한 실용적인 로드맵을 제공합니다.

저자

Rui Yang
Qianhui Wu
Zhaoyang Wang
Hanyang Chen
Ke Yang
Hao Cheng
Huaxiu Yao
Baoling Peng
Huan Zhang
Jianfeng Gao
Tong Zhang

논문 정보

arXiv ID: 2602.22190v1
카테고리: cs.LG, cs.AI, cs.CL
출판일: 2026년 2월 25일
PDF: PDF 다운로드

[Paper] GUI‑Libra: 네이티브 GUI 에이전트를 훈련시켜 행동 인식 감독 및 부분 검증 가능한 RL로 추론하고 행동하기

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] LLM 초보자 향상 on Dual-Use, In Silico 생물학 과제

[Paper] SPARTA: 텍스트와 테이블을 위한 트리 구조 멀티홉 QA의 확장 가능하고 원칙 기반 벤치마크

[Paper] 왜 Diffusion Language Models는 진정한 병렬 (Non-Autoregressive) 디코딩에 어려움을 겪는가?

[Paper] InnerQ: 하드웨어 인식 튜닝 프리 KV 캐시 양자화 for Large Language Models