[Paper] DynaWeb: 모델 기반 강화 학습을 이용한 웹 에이전트

발행: (2026년 1월 30일 오전 03:59 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2601.22149v1

Overview

이 논문은 DynaWeb을 소개한다. DynaWeb은 model‑based reinforcement learning (MBRL) 프레임워크로, 자율 웹 에이전트가 실시간 인터넷에 지속적으로 접속하는 대신 시뮬레이션된 웹 환경과의 상호작용을 “상상”함으로써 학습할 수 있게 한다. 에이전트 행동으로부터 현실적인 웹 페이지 상태를 예측하도록 세계 모델을 훈련시킴으로써, DynaWeb은 방대한 양의 합성 경험을 생성하고, 전통적인 온라인 RL을 사용한 웹 자동화의 비용, 지연 시간 및 안전 위험을 크게 줄인다.

핵심 기여

  • World‑model for the web: 에이전트 행동에 조건화된 자연스러운 페이지 표현을 예측하는 신경 “웹 시뮬레이터”를 도입하여, 개방형 웹을 제어 가능한 훈련 샌드박스로 전환한다.
  • Dream‑based policy learning: 시뮬레이터를 활용해 무한한 롤아웃 궤적(“꿈”)을 생성함으로써, 비용이 많이 드는 실제 세계 쿼리 없이 효율적인 온‑정책 강화학습을 가능하게 한다.
  • Hybrid data mixing: 기존 데이터셋의 실제 전문가 궤적과 시뮬레이션 롤아웃을 무작위로 교차 삽입하여 안정성과 샘플 효율성을 향상시킨다.
  • Empirical validation: 두 개의 까다로운 벤치마크—WebArena와 WebVoyager—에서 강력한 오픈‑소스 베이스라인보다 일관된 성능 향상을 보여준다.
  • Scalable training pipeline: 모델‑기반 강화학습이 현대 웹 작업의 복잡성에 확장될 수 있음을 입증하여, 대규모·비용‑효율적인 웹 에이전트 개발을 향한 길을 연다.

방법론

  1. Data Collection – 기존 웹 자동화 데이터셋에서 전문가 시연(액션‑페이지 쌍) 코퍼스를 수집합니다.
  2. World‑Model Training – 현재 페이지 표현과 에이전트 액션을 입력으로 받아 다음 페이지의 DOM/텍스트 임베딩을 예측하는 트랜스포머 기반 인코더‑디코더를 훈련합니다. 모델은 재구성 손실(실제 페이지와 일치시키기)과 대비 목표(임베딩을 구별 가능하게 유지)를 결합해 최적화됩니다.
  3. Policy Architecture – 현재 페이지 임베딩과 작업 설명을 다음 액션(클릭, 입력, 스크롤 등)으로 매핑하는 표준 LLM 기반 정책(예: 파인튜닝된 GPT‑Neo)을 사용합니다.
  4. Dream Rollouts – 강화학습 중에 정책이 실제 웹이 아니라 월드 모델과 상호작용합니다. 각 단계에서 예측된 페이지를 정책에 다시 입력하여 거의 비용이 들지 않는 긴 시뮬레이션 궤적을 생성합니다.
  5. Hybrid Replay Buffer – 실제 전문가 궤적과 시뮬레이션 궤적을 모두 저장하는 리플레이 버퍼를 유지합니다. 각 학습 반복에서 무작위 미니배치를 통해 두 소스를 혼합하여 정책이 현실에서 너무 멀어지지 않도록 합니다.
  6. Online RL Loop – 혼합 버퍼에 표준 온‑폴리시 알고리즘(예: PPO)을 적용하여 정책 파라미터를 업데이트하고, 모델 드리프트를 방지하기 위해 주기적으로 새로 수집된 실제 상호작용으로 월드 모델을 갱신합니다.

결과 및 발견

벤치마크베이스라인 (오픈소스)DynaWeb (ours)상대 ↑
WebArena (작업 성공률 %)42.3%58.7%+16.4 pts
WebVoyager (작업 성공률 %)35.1%51.2%+16.1 pts
샘플 효율성 (50% 성공까지 에피소드 수)~1200~420~65% reduction
훈련 비용 (GPU‑시간)9638~60% saving

해석: 실제 경험에 고품질 시뮬레이션 롤아웃을 추가함으로써, DynaWeb은 더 높은 성공률을 달성하면서 실시간 웹 상호작용 횟수를 대략 3분의 1 수준으로 줄일 수 있습니다. 이러한 향상은 두 벤치마크 모두에서 일관되게 나타나며, 세계 모델이 정책 학습에 유용할 만큼 웹의 동역학을 충분히 포착하고 있음을 확인합니다.

실용적 시사점

  • 비용 효율적인 에이전트 개발 – 기업은 막대한 API 비용이나 대역폭 사용 없이 정교한 웹 자동화 봇을 훈련시킬 수 있습니다.
  • 안전 및 규정 준수 – 시뮬레이션된 롤아웃은 학습 단계에서 우발적인 데이터 유출, 스팸 전송, 서비스 약관 위반을 방지합니다.
  • 신속한 프로토타이핑 – 개발자는 기존 세계 모델에 정책을 재학습시키는 것만으로 새로운 작업 사양(예: 새로운 양식 입력 흐름)에 대해 반복 작업을 할 수 있어, 소요 시간을 주에서 일로 단축합니다.
  • 확장 가능한 RL 파이프라인 – DynaWeb 아키텍처는 기존 RL‑as‑a‑service 스택(예: Ray RLlib)과 자연스럽게 통합되어 수천 개의 병렬 에이전트를 클라우드 네이티브 방식으로 훈련시킬 수 있습니다.
  • “에이전시” LLM을 위한 기반 – 저비용 고충실도 샌드박스를 제공함으로써 DynaWeb은 인간이 개입하지 않는 감독 없이 웹 작업을 스스로 개선할 수 있는 차세대 LLM 기반 어시스턴트의 길을 열어줍니다.

제한 사항 및 향후 작업

  • World‑model fidelity – 시뮬레이터는 시각적 단서가 지배적인 고도로 동적인 콘텐츠(예: 실시간 주식 티커, CAPTCHA 챌린지)에서 여전히 어려움을 겪습니다.
  • Domain shift – 시뮬레이션 데이터에 크게 의존해 학습된 정책은 구조적으로 훈련 코퍼스와 다른 완전히 새로운 웹사이트에서 성능이 저하될 수 있습니다.
  • Scalability of the model – 전체이면서 지속적으로 변하는 인터넷에 대해 월드 모델을 학습하려면 지속적인 업데이트가 필요합니다; 현재 접근 방식은 웹 페이지의 정적 스냅샷에 의존합니다.
  • Future directions – 저자들은 멀티모달 인식(렌더링된 스크린샷) 통합, 지속적인 월드 모델 적응, 그리고 여러 사이트에 걸쳐 장기적인 계획을 수립할 수 있는 계층형 정책을 제안합니다.

핵심: DynaWeb은 “상상력을 통해 웹 에이전트를 훈련하는” 것이 단순한 연구 호기심이 아니라, 자율적인 LLM‑powered 웹 어시스턴트를 구축하는 개발자들의 장벽을 크게 낮출 수 있는 실용적이고 확장 가능한 전략임을 보여줍니다.

저자

  • Hang Ding
  • Peidong Liu
  • Junqiao Wang
  • Ziwei Ji
  • Meng Cao
  • Rongzhao Zhang
  • Lynn Ai
  • Eric Yang
  • Tianyu Shi
  • Lei Yu

논문 정보

  • arXiv ID: 2601.22149v1
  • 카테고리: cs.CL, cs.AI
  • 출판일: 2026년 1월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »