[Paper] DynaWeb: 모델 기반 강화 학습을 이용한 웹 에이전트
Source: arXiv - 2601.22149v1
Overview
이 논문은 DynaWeb을 소개한다. DynaWeb은 model‑based reinforcement learning (MBRL) 프레임워크로, 자율 웹 에이전트가 실시간 인터넷에 지속적으로 접속하는 대신 시뮬레이션된 웹 환경과의 상호작용을 “상상”함으로써 학습할 수 있게 한다. 에이전트 행동으로부터 현실적인 웹 페이지 상태를 예측하도록 세계 모델을 훈련시킴으로써, DynaWeb은 방대한 양의 합성 경험을 생성하고, 전통적인 온라인 RL을 사용한 웹 자동화의 비용, 지연 시간 및 안전 위험을 크게 줄인다.
핵심 기여
- World‑model for the web: 에이전트 행동에 조건화된 자연스러운 페이지 표현을 예측하는 신경 “웹 시뮬레이터”를 도입하여, 개방형 웹을 제어 가능한 훈련 샌드박스로 전환한다.
- Dream‑based policy learning: 시뮬레이터를 활용해 무한한 롤아웃 궤적(“꿈”)을 생성함으로써, 비용이 많이 드는 실제 세계 쿼리 없이 효율적인 온‑정책 강화학습을 가능하게 한다.
- Hybrid data mixing: 기존 데이터셋의 실제 전문가 궤적과 시뮬레이션 롤아웃을 무작위로 교차 삽입하여 안정성과 샘플 효율성을 향상시킨다.
- Empirical validation: 두 개의 까다로운 벤치마크—WebArena와 WebVoyager—에서 강력한 오픈‑소스 베이스라인보다 일관된 성능 향상을 보여준다.
- Scalable training pipeline: 모델‑기반 강화학습이 현대 웹 작업의 복잡성에 확장될 수 있음을 입증하여, 대규모·비용‑효율적인 웹 에이전트 개발을 향한 길을 연다.
방법론
- Data Collection – 기존 웹 자동화 데이터셋에서 전문가 시연(액션‑페이지 쌍) 코퍼스를 수집합니다.
- World‑Model Training – 현재 페이지 표현과 에이전트 액션을 입력으로 받아 다음 페이지의 DOM/텍스트 임베딩을 예측하는 트랜스포머 기반 인코더‑디코더를 훈련합니다. 모델은 재구성 손실(실제 페이지와 일치시키기)과 대비 목표(임베딩을 구별 가능하게 유지)를 결합해 최적화됩니다.
- Policy Architecture – 현재 페이지 임베딩과 작업 설명을 다음 액션(클릭, 입력, 스크롤 등)으로 매핑하는 표준 LLM 기반 정책(예: 파인튜닝된 GPT‑Neo)을 사용합니다.
- Dream Rollouts – 강화학습 중에 정책이 실제 웹이 아니라 월드 모델과 상호작용합니다. 각 단계에서 예측된 페이지를 정책에 다시 입력하여 거의 비용이 들지 않는 긴 시뮬레이션 궤적을 생성합니다.
- Hybrid Replay Buffer – 실제 전문가 궤적과 시뮬레이션 궤적을 모두 저장하는 리플레이 버퍼를 유지합니다. 각 학습 반복에서 무작위 미니배치를 통해 두 소스를 혼합하여 정책이 현실에서 너무 멀어지지 않도록 합니다.
- Online RL Loop – 혼합 버퍼에 표준 온‑폴리시 알고리즘(예: PPO)을 적용하여 정책 파라미터를 업데이트하고, 모델 드리프트를 방지하기 위해 주기적으로 새로 수집된 실제 상호작용으로 월드 모델을 갱신합니다.
결과 및 발견
| 벤치마크 | 베이스라인 (오픈소스) | DynaWeb (ours) | 상대 ↑ |
|---|---|---|---|
| WebArena (작업 성공률 %) | 42.3% | 58.7% | +16.4 pts |
| WebVoyager (작업 성공률 %) | 35.1% | 51.2% | +16.1 pts |
| 샘플 효율성 (50% 성공까지 에피소드 수) | ~1200 | ~420 | ~65% reduction |
| 훈련 비용 (GPU‑시간) | 96 | 38 | ~60% saving |
해석: 실제 경험에 고품질 시뮬레이션 롤아웃을 추가함으로써, DynaWeb은 더 높은 성공률을 달성하면서 실시간 웹 상호작용 횟수를 대략 3분의 1 수준으로 줄일 수 있습니다. 이러한 향상은 두 벤치마크 모두에서 일관되게 나타나며, 세계 모델이 정책 학습에 유용할 만큼 웹의 동역학을 충분히 포착하고 있음을 확인합니다.
실용적 시사점
- 비용 효율적인 에이전트 개발 – 기업은 막대한 API 비용이나 대역폭 사용 없이 정교한 웹 자동화 봇을 훈련시킬 수 있습니다.
- 안전 및 규정 준수 – 시뮬레이션된 롤아웃은 학습 단계에서 우발적인 데이터 유출, 스팸 전송, 서비스 약관 위반을 방지합니다.
- 신속한 프로토타이핑 – 개발자는 기존 세계 모델에 정책을 재학습시키는 것만으로 새로운 작업 사양(예: 새로운 양식 입력 흐름)에 대해 반복 작업을 할 수 있어, 소요 시간을 주에서 일로 단축합니다.
- 확장 가능한 RL 파이프라인 – DynaWeb 아키텍처는 기존 RL‑as‑a‑service 스택(예: Ray RLlib)과 자연스럽게 통합되어 수천 개의 병렬 에이전트를 클라우드 네이티브 방식으로 훈련시킬 수 있습니다.
- “에이전시” LLM을 위한 기반 – 저비용 고충실도 샌드박스를 제공함으로써 DynaWeb은 인간이 개입하지 않는 감독 없이 웹 작업을 스스로 개선할 수 있는 차세대 LLM 기반 어시스턴트의 길을 열어줍니다.
제한 사항 및 향후 작업
- World‑model fidelity – 시뮬레이터는 시각적 단서가 지배적인 고도로 동적인 콘텐츠(예: 실시간 주식 티커, CAPTCHA 챌린지)에서 여전히 어려움을 겪습니다.
- Domain shift – 시뮬레이션 데이터에 크게 의존해 학습된 정책은 구조적으로 훈련 코퍼스와 다른 완전히 새로운 웹사이트에서 성능이 저하될 수 있습니다.
- Scalability of the model – 전체이면서 지속적으로 변하는 인터넷에 대해 월드 모델을 학습하려면 지속적인 업데이트가 필요합니다; 현재 접근 방식은 웹 페이지의 정적 스냅샷에 의존합니다.
- Future directions – 저자들은 멀티모달 인식(렌더링된 스크린샷) 통합, 지속적인 월드 모델 적응, 그리고 여러 사이트에 걸쳐 장기적인 계획을 수립할 수 있는 계층형 정책을 제안합니다.
핵심: DynaWeb은 “상상력을 통해 웹 에이전트를 훈련하는” 것이 단순한 연구 호기심이 아니라, 자율적인 LLM‑powered 웹 어시스턴트를 구축하는 개발자들의 장벽을 크게 낮출 수 있는 실용적이고 확장 가능한 전략임을 보여줍니다.
저자
- Hang Ding
- Peidong Liu
- Junqiao Wang
- Ziwei Ji
- Meng Cao
- Rongzhao Zhang
- Lynn Ai
- Eric Yang
- Tianyu Shi
- Lei Yu
논문 정보
- arXiv ID: 2601.22149v1
- 카테고리: cs.CL, cs.AI
- 출판일: 2026년 1월 29일
- PDF: PDF 다운로드