[Paper] InfiniteWeb: GUI 에이전트 훈련을 위한 확장 가능한 웹 환경 합성

발행: 1개월 전 (2026년 1월 8일 오전 02:40 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2601.04126v1

개요

이 논문은 InfiniteWeb이라는 프레임워크를 소개합니다. 이 프레임워크는 GUI‑상호작용 에이전트를 훈련시키기 위해 대량의 기능적인 웹 사이트를 자동으로 합성할 수 있습니다. 웹 페이지 생성을 수작업 병목 현상에서 확장 가능한 테스트‑주도 프로세스로 전환함으로써, 저자들은 강화‑학습 에이전트가 현실적이고 다양한 인터페이스에서 연습할 수 있게 합니다. 이는 인간 사용자처럼 클릭하고, 입력하고, 탐색할 수 있는 실용적인 AI 어시스턴트를 구축하는 데 큰 장애물로 작용해 온 문제를 해결합니다.

주요 기여

자동화된 웹사이트 합성 파이프라인은 고수준 사양으로부터 완전하고 다중 페이지 웹 애플리케이션을 생성합니다.
작업 중심 테스트 기반 개발: 생성된 각 사이트는 자동으로 생성된 테스트 스위트를 포함하며, 이는 RL 에이전트를 위한 밀도 높은 검증 가능한 보상 신호 역할을 합니다.
통합 사양 언어는 페이지 레이아웃, 네비게이션 흐름 및 기능 요구사항을 포착하여 생성 과정을 결정론적이면서도 다양하게 만듭니다.
하이브리드 시드 전략: 텍스트 “시드” 설명과 참조 디자인 이미지를 결합하여 시각적 다양성을 유도하면서 기능적 정확성을 유지합니다.
실증적 검증은 InfiniteWeb이 현실적인 사이트 구축에서 상용 코드 생성 도구(예: GitHub Copilot, Claude)를 능가함을 보여주며, 해당 환경에서 훈련된 에이전트가 벤치마크 GUI 작업(OSWorld, Online‑Mind2Web)에서 최첨단 성능을 달성함을 입증합니다.

Source: …

방법론

사양 레이어 – 사용자는 간결하고 고수준의 사양(예: “제품 카탈로그, 장바구니, 결제가 포함된 전자상거래 사이트”)과 선택적인 디자인 목업을 제공합니다. 사양은 페이지 계층 구조, UI 구성 요소 및 데이터 흐름을 인코딩합니다.
LLM 기반 페이지 생성 – 대형 언어 모델(LLM)이 사양을 각 페이지의 HTML/CSS/JS로 확장하고, 디자인 이미지를 참고하여 시각적 스타일을 적용합니다.
테스트 기반 합성 – 생성된 각 페이지마다 시스템이 자동으로 Selenium 스타일 통합 테스트를 작성합니다. 이 테스트는 내비게이션, 폼 제출 및 데이터 검증을 수행합니다. 테스트는 두 가지 역할을 합니다: (a) 사이트가 정상적으로 동작하는지 검증하고, (b) 강화 학습 에이전트를 위한 밀집 보상 신호를 제공합니다(통과된 테스트 하나당 긍정적 보상).
사이트 조립 및 일관성 검사 – 개별 페이지를 연결하고, 일관성 검증기가 전체 사이트에 걸쳐 URL, 상태 관리 및 API 엔드포인트가 일관되는지 확인합니다.
데이터셋 생성 – 시드 텍스트와 디자인 이미지를 다양하게 변형함으로써 InfiniteWeb은 수천 개의 고유한 웹 환경을 생성합니다. 각 환경은 테스트 스위트와 함께 제공되어 강화 학습 파이프라인에 바로 사용할 수 있습니다.

결과 및 발견

생성 품질: 선도적인 상용 코딩 어시스턴트와의 직접 비교 평가에서 InfiniteWeb은 기능 정확도 점수가 23 % 더 높았으며(생성된 테스트 스위트를 통과한 것으로 측정), 스타일적으로 더 다양한 사이트를 생성했습니다.
에이전트 성능: InfiniteWeb이 생성한 사이트에 사전 학습된 GUI 에이전트는 기존의 합성 또는 수동으로 선별된 환경에서 학습된 에이전트에 비해 성공률이 OSWorld에서 +15 %, Online‑Mind2Web에서 +12 % 향상되었습니다.
보상 신호 효과: 밀집된 테스트 기반 보상은 강화학습(RL) 훈련에서 수렴을 가속화하여, 유사한 성능에 도달하기 위해 필요한 환경 상호작용 횟수를 약 30 % 감소시켰습니다.
확장성: 파이프라인은 단일 GPU 지원 서버에서 30 초 미만으로 새로운 웹사이트를 생성 및 검증할 수 있어, 적은 컴퓨팅 자원으로도 수백만 개의 학습 인스턴스를 생성할 수 있습니다.

Practical Implications

Rapid Prototyping for AI Assistants – 개발자는 이제 실제와 같은 웹 UI를 사실상 무제한으로 생성하여 양식 작성, 데이터 추출, 전자상거래 결제와 같은 작업을 자동화하는 에이전트를 훈련하고 벤치마크할 수 있습니다.
Better Test Coverage for Web Automation Tools – 자동으로 생성된 테스트 스위트는 QA 팀이 브라우저, 헤드리스 드라이버, 접근성 도구 등을 스트레스 테스트하는 데 재사용할 수 있습니다.
Customizable Training Domains – 기업은 도메인‑특화 사양(예: 내부 대시보드, SaaS 관리 패널)을 InfiniteWeb에 제공하여 실제 사용자 데이터를 노출하지 않고도 사설 고충실도 환경을 만들 수 있습니다.
Reduced Dependence on Human‑Curated Datasets – 이 접근 방식은 UI 요소와 상호작용 트레이스를 수동으로 라벨링하는 비용이 많이 드는 작업을 회피하여, 스타트업이 강화학습 기반 UI 에이전트를 실험하는 장벽을 낮춥니다.

제한 사항 및 향후 작업

Spec Expressiveness – 통합 사양이 많은 일반적인 패턴을 포괄하지만, 매우 맞춤화된 JavaScript 로직이나 복잡한 백‑엔드 통합은 자동으로 캡처하기 어렵다.
Visual Fidelity vs. Functionality Trade‑off – 현재 이미지‑가이드 생성은 레이아웃 유사성에 초점을 맞추고 있어, 세밀한 픽셀‑완벽 디자인(예: 브랜드‑특정 타이포그래피)은 여전히 수동 조정이 필요할 수 있다.
Security & Sandbox Concerns – 생성된 사이트는 임의의 JavaScript를 실행하므로, 파이프라인을 공개적으로 확장할 때 안전한 샌드박싱이 필수적이다.
Future Directions – 저자들은 (1) API 계약 및 상태ful 백‑엔드를 설명할 수 있도록 사양 언어를 확장하고, (2) 보다 풍부한 시각적 합성을 위해 멀티모달 LLM을 도입하며, (3) 사이트 복잡성을 점진적으로 증가시켜 보다 견고한 에이전트 학습을 가능하게 하는 커리큘럼‑러닝 전략을 탐구할 계획이다.

저자

Ziyun Zhang
Zezhou Wang
Xiaoyi Zhang
Zongyu Guo
Jiahao Li
Bin Li
Yan Lu

논문 정보

arXiv ID: 2601.04126v1
분류: cs.CL, cs.AI, cs.CV
출판일: 2026년 1월 7일
PDF: PDF 다운로드

[Paper] InfiniteWeb: GUI 에이전트 훈련을 위한 확장 가능한 웹 환경 합성

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Vision-Language 모델에서 프롬프트 유발 환각의 메커니즘

[Paper] 교차 모달 충돌 하에서 대규모 멀티모달 모델의 추론 일관성 분석

[Paper] 무선 네트워크에서의 예측 및 제어를 위한 Multi-Modal Data-Enhanced Foundation Models: 설문 조사

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs