[Paper] InfiniteWeb: GUI 에이전트 훈련을 위한 확장 가능한 웹 환경 합성

발행: (2026년 1월 8일 오전 02:40 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2601.04126v1

개요

이 논문은 InfiniteWeb이라는 프레임워크를 소개합니다. 이 프레임워크는 GUI‑상호작용 에이전트를 훈련시키기 위해 대량의 기능적인 웹 사이트를 자동으로 합성할 수 있습니다. 웹 페이지 생성을 수작업 병목 현상에서 확장 가능한 테스트‑주도 프로세스로 전환함으로써, 저자들은 강화‑학습 에이전트가 현실적이고 다양한 인터페이스에서 연습할 수 있게 합니다. 이는 인간 사용자처럼 클릭하고, 입력하고, 탐색할 수 있는 실용적인 AI 어시스턴트를 구축하는 데 큰 장애물로 작용해 온 문제를 해결합니다.

주요 기여

  • 자동화된 웹사이트 합성 파이프라인은 고수준 사양으로부터 완전하고 다중 페이지 웹 애플리케이션을 생성합니다.
  • 작업 중심 테스트 기반 개발: 생성된 각 사이트는 자동으로 생성된 테스트 스위트를 포함하며, 이는 RL 에이전트를 위한 밀도 높은 검증 가능한 보상 신호 역할을 합니다.
  • 통합 사양 언어는 페이지 레이아웃, 네비게이션 흐름 및 기능 요구사항을 포착하여 생성 과정을 결정론적이면서도 다양하게 만듭니다.
  • 하이브리드 시드 전략: 텍스트 “시드” 설명과 참조 디자인 이미지를 결합하여 시각적 다양성을 유도하면서 기능적 정확성을 유지합니다.
  • 실증적 검증은 InfiniteWeb이 현실적인 사이트 구축에서 상용 코드 생성 도구(예: GitHub Copilot, Claude)를 능가함을 보여주며, 해당 환경에서 훈련된 에이전트가 벤치마크 GUI 작업(OSWorld, Online‑Mind2Web)에서 최첨단 성능을 달성함을 입증합니다.

Source:

방법론

  1. 사양 레이어 – 사용자는 간결하고 고수준의 사양(예: “제품 카탈로그, 장바구니, 결제가 포함된 전자상거래 사이트”)과 선택적인 디자인 목업을 제공합니다. 사양은 페이지 계층 구조, UI 구성 요소 및 데이터 흐름을 인코딩합니다.
  2. LLM 기반 페이지 생성 – 대형 언어 모델(LLM)이 사양을 각 페이지의 HTML/CSS/JS로 확장하고, 디자인 이미지를 참고하여 시각적 스타일을 적용합니다.
  3. 테스트 기반 합성 – 생성된 각 페이지마다 시스템이 자동으로 Selenium 스타일 통합 테스트를 작성합니다. 이 테스트는 내비게이션, 폼 제출 및 데이터 검증을 수행합니다. 테스트는 두 가지 역할을 합니다: (a) 사이트가 정상적으로 동작하는지 검증하고, (b) 강화 학습 에이전트를 위한 밀집 보상 신호를 제공합니다(통과된 테스트 하나당 긍정적 보상).
  4. 사이트 조립 및 일관성 검사 – 개별 페이지를 연결하고, 일관성 검증기가 전체 사이트에 걸쳐 URL, 상태 관리 및 API 엔드포인트가 일관되는지 확인합니다.
  5. 데이터셋 생성 – 시드 텍스트와 디자인 이미지를 다양하게 변형함으로써 InfiniteWeb은 수천 개의 고유한 웹 환경을 생성합니다. 각 환경은 테스트 스위트와 함께 제공되어 강화 학습 파이프라인에 바로 사용할 수 있습니다.

결과 및 발견

  • 생성 품질: 선도적인 상용 코딩 어시스턴트와의 직접 비교 평가에서 InfiniteWeb은 기능 정확도 점수가 23 % 더 높았으며(생성된 테스트 스위트를 통과한 것으로 측정), 스타일적으로 더 다양한 사이트를 생성했습니다.
  • 에이전트 성능: InfiniteWeb이 생성한 사이트에 사전 학습된 GUI 에이전트는 기존의 합성 또는 수동으로 선별된 환경에서 학습된 에이전트에 비해 성공률이 OSWorld에서 +15 %, Online‑Mind2Web에서 +12 % 향상되었습니다.
  • 보상 신호 효과: 밀집된 테스트 기반 보상은 강화학습(RL) 훈련에서 수렴을 가속화하여, 유사한 성능에 도달하기 위해 필요한 환경 상호작용 횟수를 약 30 % 감소시켰습니다.
  • 확장성: 파이프라인은 단일 GPU 지원 서버에서 30 초 미만으로 새로운 웹사이트를 생성 및 검증할 수 있어, 적은 컴퓨팅 자원으로도 수백만 개의 학습 인스턴스를 생성할 수 있습니다.

Practical Implications

  • Rapid Prototyping for AI Assistants – 개발자는 이제 실제와 같은 웹 UI를 사실상 무제한으로 생성하여 양식 작성, 데이터 추출, 전자상거래 결제와 같은 작업을 자동화하는 에이전트를 훈련하고 벤치마크할 수 있습니다.
  • Better Test Coverage for Web Automation Tools – 자동으로 생성된 테스트 스위트는 QA 팀이 브라우저, 헤드리스 드라이버, 접근성 도구 등을 스트레스 테스트하는 데 재사용할 수 있습니다.
  • Customizable Training Domains – 기업은 도메인‑특화 사양(예: 내부 대시보드, SaaS 관리 패널)을 InfiniteWeb에 제공하여 실제 사용자 데이터를 노출하지 않고도 사설 고충실도 환경을 만들 수 있습니다.
  • Reduced Dependence on Human‑Curated Datasets – 이 접근 방식은 UI 요소와 상호작용 트레이스를 수동으로 라벨링하는 비용이 많이 드는 작업을 회피하여, 스타트업이 강화학습 기반 UI 에이전트를 실험하는 장벽을 낮춥니다.

제한 사항 및 향후 작업

  • Spec Expressiveness – 통합 사양이 많은 일반적인 패턴을 포괄하지만, 매우 맞춤화된 JavaScript 로직이나 복잡한 백‑엔드 통합은 자동으로 캡처하기 어렵다.
  • Visual Fidelity vs. Functionality Trade‑off – 현재 이미지‑가이드 생성은 레이아웃 유사성에 초점을 맞추고 있어, 세밀한 픽셀‑완벽 디자인(예: 브랜드‑특정 타이포그래피)은 여전히 수동 조정이 필요할 수 있다.
  • Security & Sandbox Concerns – 생성된 사이트는 임의의 JavaScript를 실행하므로, 파이프라인을 공개적으로 확장할 때 안전한 샌드박싱이 필수적이다.
  • Future Directions – 저자들은 (1) API 계약 및 상태ful 백‑엔드를 설명할 수 있도록 사양 언어를 확장하고, (2) 보다 풍부한 시각적 합성을 위해 멀티모달 LLM을 도입하며, (3) 사이트 복잡성을 점진적으로 증가시켜 보다 견고한 에이전트 학습을 가능하게 하는 커리큘럼‑러닝 전략을 탐구할 계획이다.

저자

  • Ziyun Zhang
  • Zezhou Wang
  • Xiaoyi Zhang
  • Zongyu Guo
  • Jiahao Li
  • Bin Li
  • Yan Lu

논문 정보

  • arXiv ID: 2601.04126v1
  • 분류: cs.CL, cs.AI, cs.CV
  • 출판일: 2026년 1월 7일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[논문] Web World Models

언어 에이전트는 점점 더 행동하고, 기억하고, 학습할 수 있는 지속적인 세계를 필요로 합니다. 기존 접근 방식은 두 극단에 놓여 있습니다: 기존 웹 fra...