[Paper] Prune4Web: 웹 에이전트를 위한 DOM 트리 프루닝 프로그래밍

발행: (2025년 11월 26일 오후 10:49 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.21398v1

Overview

대규모 언어 모델(LLM) 기반 웹 자동화 에이전트는 수만 개의 노드를 포함할 수 있는 거대한 DOM 트리를 마주하면 여전히 어려움을 겪는다. Prune4Web은 접근 방식을 뒤바꾼다: 전체 DOM을 LLM이 읽게 강요하는 대신, 모델이 현재 하위 작업에 중요한 요소만 남도록 트리를 프로그램적으로 가지치기하는 작은 파이썬 “필터 스크립트”를 생성하도록 한다. 그 결과는 속도는 크게 향상되고, grounding 정확도는 크게 상승하여 LLM 기반 에이전트를 실제 웹 작업에 훨씬 더 실용적으로 만든다.

Key Contributions

  • DOM Tree Pruning Programming: LLM이 실행 가능한 파이썬 스코어링 스크립트를 생성해, 분해된 하위 작업의 의미적 단서에 따라 DOM 요소를 필터링하는 새로운 패러다임.
  • Two‑turn Dialogue Training: Planner(작업 분해), Programmatic Filter(가지치기 스크립트), Grounder(동작 선택)를 하나의 통합 프레임워크에서 공동 최적화.
  • Efficient Annotation Pipeline: 가지치기 스크립트와 grounding 결정을 위한 고품질 감독 데이터를 제공하는 맞춤형 데이터 생성 프로세스.
  • Scalable Reduction: 후보 DOM 노드 수를 25×–50× 축소하여 LLM의 어텐션 부하를 크게 감소.
  • State‑of‑the‑Art Performance: 저수준 grounding 정확도를 46.8 %에서 88.28 %로 끌어올려, 기존 LLM 기반 웹 에이전트를 능가.

Methodology

  1. Task Decomposition (Planner) – LLM이 고수준 사용자 요청(예: “항공권 예약”)을 구체적인 하위 작업(예: “날짜 선택기 클릭”, “목적지 선택”) 시퀀스로 분해한다.
  2. Program Generation (Programmatic Filter) – 각 하위 작업마다 동일한 LLM이 짧은 파이썬 스크립트를 생성해 텍스트 유사도, 속성 패턴, CSS 클래스 등 경량 히ュー리스틱을 이용해 모든 DOM 노드에 점수를 매긴다. 스크립트는 “관련” 요소들의 순위 리스트를 반환한다.
  3. Pruning Execution – 생성된 스크립트가 LLM 외부에서 원시 DOM에 실행되어 대부분의 노드를 버리고 수백 개의 후보만 남긴다.
  4. Grounding (Grounder) – 두 번째 LLM 패스가 가지치기된 후보 집합과 하위 작업 설명을 받아 정확한 요소(클릭, 입력 등)를 선택한다.
  5. Two‑Turn Dialogue – 시스템이 반복한다: Planner가 다음 하위 작업을 제안하고, Filter가 가지치기하며, Grounder가 실행하고, 성공/실패 피드백이 다음 턴에 전달돼 스크립트를 실시간으로 개선한다.

모든 구성 요소는 웹 자동화 에피소드로 구성된 정제된 데이터셋을 사용해, 감독 신호(정확한 스크립트, 정확한 grounding)와 실행 결과에서 얻는 강화 학습형 피드백을 혼합해 엔드‑투‑엔드로 학습된다.

Results & Findings

MetricBaseline (LLM‑only)Prune4Web
Low‑level grounding accuracy46.8 %88.28 %
Avg. candidate DOM nodes per step~30 k~600 (≈ 25×–50× reduction)
End‑to‑end task success (complex multi‑step)31 %57 %
Inference latency per step2.8 s0.4 s

What it means: DOM 탐색을 작은 파이썬 스크립트에 위임함으로써 LLM은 페이지의 압축되고 의미적으로 풍부한 부분에만 어텐션을 집중할 수 있다. 이는 이전에 “어텐션 희석”으로 인해 발생하던 잘못된 grounding을 제거한다. 정확도 상승은 가지치기된 뷰가 단순히 작아진 것이 아니라 더 관련성이 높아졌음을 보여준다.

Practical Implications

  • Faster Web Bots – 개발자는 Prune4Web을 기존 자동화 파이프라인(예: Selenium, Playwright)에 삽입해 신뢰성을 유지하면서도 급격한 속도 향상을 경험할 수 있다.
  • Lower Compute Costs – LLM에 전달되는 토큰 수를 감소시켜 API 사용량과 GPU 메모리를 절감, 대규모 배포(예: SaaS UI 자동화)를 경제적으로 만든다.
  • Explainable Filters – 생성된 파이썬 스크립트는 인간이 읽을 수 있어 디버깅 및 컴플라이언스 검증(예: 봇이 숨겨진 광고를 클릭하지 않도록 보장)에 활용 가능하다.
  • Plug‑and‑Play with Any LLM – 모델에 구애받지 않으며, 지시를 따르는 모든 LLM이 필터 스크립트를 생성할 수 있어 오픈소스 대안도 쉽게 적용할 수 있다.
  • Robustness to Page Bloat – 현대 웹 앱(싱글 페이지 프레임워크, 무한 스크롤)은 DOM을 크게 부풀릴 수 있지만, Prune4Web의 가지치기는 크기에 관계없이 효과를 유지해 전자상거래, 핀테크, 내부 대시보드 등에서 신뢰성을 높인다.

Limitations & Future Work

  • Script Generation Errors – 가끔 LLM이 구문 오류가 있거나 과도하게 관대한 파이썬 필터를 생성해, 대체 메커니즘이나 재시도가 필요하다.
  • Domain‑Specific Heuristics – 현재 스코어링 함수는 일반적이며, 캔버스 기반 UI와 같은 특수 사이트는 맞춤형 프리미티브가 필요할 수 있다.
  • Training Data Coverage – 주석 파이프라인이 선별된 웹 작업 집합에 초점을 맞추고 있어, 웹 전체의 다양성을 포괄하려면 더 크고 반자동화된 데이터셋이 요구된다.
  • Dynamic Content – 실시간 피드(예: 라이브 피드)와 같이 빠르게 변하는 DOM은 이전에 생성된 필터를 무효화할 수 있다. 향후 연구에서는 증분 재가지치기 혹은 지속적인 스크립트 적응을 탐색할 예정이다.

전반적으로 Prune4Web은 무거운 DOM 처리를 LLM의 “두뇌”에서 가벼운 해석 가능한 프로그램으로 옮기는 것이 웹 자동화 에이전트에 있어 게임 체인저임을 입증한다. 이를 통해 더 빠르고, 저렴하며, 신뢰할 수 있는 AI‑구동 브라우저가 실현될 전망이다.

Authors

  • Jiayuan Zhang
  • Kaiquan Chen
  • Zhihao Lu
  • Enshen Zhou
  • Qian Yu
  • Jing Zhang

Paper Information

  • arXiv ID: 2511.21398v1
  • Categories: cs.AI, cs.CL, cs.HC, cs.MA
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.