[Paper] 중첩된 Browser-Use Learning for Agentic Information Seeking

발행: (2025년 12월 30일 오전 02:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.23647v1

Overview

논문 **“Nested Browser‑Use Learning for Agentic Information Seeking”**은 현대 AI 어시스턴트에서 실용적인 병목 현상을 해결합니다: 대부분의 에이전트는 API를 통해 원시 스니펫이나 URL만 가져올 수 있어 인터랙티브 웹 페이지 뒤에 숨겨진 방대한 정보를 놓치고 있습니다. 저자들은 NestBrowse라는 가볍고 계층적인 브라우저‑액션 프레임워크를 도입함으로써, 에이전트가 높은 수준에서 브라우징을 제어하면서도 복잡하고 동적인 사이트를 깊이 탐색할 수 있게 하여, 보다 풍부하고 신뢰할 수 있는 정보‑탐색 능력을 열어줍니다.

주요 기여

  • Nested Browser‑Action API – 제어 흐름(예: “이 버튼을 클릭”)과 콘텐츠 탐색(예: “스크롤하고 페이지를 읽기”)을 분리하는 최소하지만 완전한 액션 집합.
  • NestBrowse Learning Paradigm – 에이전트가 중첩 액션을 발행하도록 훈련시켜 “새 페이지를 언제 열지”와 “현재 페이지에서 데이터를 어떻게 추출할지”를 추론하게 함.
  • Deep‑Web 벤치마크에 대한 실증 검증 – 다단계 탐색, 양식 작성, 페이지네이션이 필요한 작업에서 기존 ReAct‑스타일 에이전트 대비 일관된 성능 향상을 입증.
  • 효율성 및 유연성 분석 – 중첩 설계가 필요한 API 호출 수를 감소시키고 최소한의 코드 변경으로 기존 LLM‑기반 에이전트에 적용 가능함을 보여줌.

Source:

Methodology

  1. Action Space Design

    • High‑level actions (open_page, close_page)는 브라우저 스택을 관리합니다.
    • Low‑level actions (click, type, scroll, extract)는 현재 활성화된 페이지 내에서 동작합니다.
    • 이러한 중첩 구조는 트리‑형 실행 추적을 생성합니다: 새로운 페이지가 열릴 때마다 자식 노드가 생성되어 컨텍스트를 보존하고, 부모의 추론은 그대로 유지됩니다.
  2. Training Loop

    • 저자들은 규칙 기반 “오라클”을 사용해 각 벤치마크 과제를 해결하는 합성 브라우징 궤적을 생성합니다.
    • 이 궤적을 중첩된 액션 시퀀스로 변환한 뒤, 표준 LLM(예: GPT‑4)을 지도 학습으로 파인튜닝합니다.
    • 추론 단계에서 모델은 다음 액션을 예측하고, 브라우저 시뮬레이터가 이를 실행한 뒤 간결한 관찰값(예: 추출된 텍스트, DOM 스냅샷)을 반환하고, 이 과정을 반복합니다.
  3. Evaluation Setup

    • 벤치마크에는 DeepWebQA, Multi‑Page Retrieval, Form‑Filling Search가 포함되며, 각각 최소 세 번 이상의 네비게이션 단계와 동적 콘텐츠와의 상호작용을 요구합니다.
    • 비교 대상: 일반 ReAct 에이전트(API‑only), 평면 브라우저 액션을 사용하는 툴‑콜링 에이전트, 그리고 수작업 규칙 기반 크롤러.

결과 및 발견

BenchmarkNestBrowseReAct‑APIFlat‑BrowserRule‑Crawler
DeepWebQA78.4 %62.1 %71.3 %55.8 %
Multi‑Page Retrieval84.7 %68.9 %77.5 %61.2 %
Form‑Filling Search81.2 %65.4 %73.0 %58.9 %
  • 모든 작업에서 높은 정확도, 특히 3회 이상 깊은 탐색이 필요한 경우에 두드러짐.
  • 플랫‑브라우저 에이전트에 비해 API 호출이 약 30 % 감소, 중첩 구조가 중복 페이지 로드를 방지함.
  • 레이아웃 변화에 대한 견고성: 계층적 컨텍스트가 클릭 후 페이지 DOM이 변해도 모델이 복구하도록 도움.

실용적인 시사점

  • Richer ChatGPT‑style assistants – 개발자는 이제 NestBrowse 모듈을 삽입하여 어시스턴트가 로그인 제한, 무한 스크롤, 인터랙티브 차트 뒤에 있는 정보를 “조회”하도록 할 수 있어, 보다 최신의 답변을 제공합니다.
  • Enterprise knowledge retrieval – 레거시 웹 포털(예: 티켓 시스템, 재고 대시보드)에서 데이터를 스크래핑해야 하는 내부 도구들을 각 사이트마다 맞춤형 스크래퍼를 작성하지 않고 자동화할 수 있습니다.
  • Reduced engineering overhead – API가 의도적으로 작게 설계되어 있어, 기존 LangChain 또는 LlamaIndex 파이프라인에 통합할 때 몇 개의 래퍼 함수만 필요합니다.
  • Cost efficiency – 브라우저와의 왕복 횟수가 줄어들어 컴퓨팅 시간이 감소하고, 호스팅된 LLM 서비스의 API 사용 비용이 낮아집니다.

제한 사항 및 향후 작업

  • 시뮬레이션 vs. 실제 브라우저 – 실험은 헤드리스 Chromium 시뮬레이터에서 수행되었으며, JavaScript 중심 사이트(예: SPA)에서는 성능이 다를 수 있습니다.
  • 액션 시퀀스의 확장성 – 매우 긴 탐색 트리(>10 레벨)는 현재 LLM 토큰 제한으로 인해 컨텍스트 오버플로가 발생할 수 있습니다.
  • 보안 및 윤리 – 자동 브라우징은 저작권이 있거나 개인적인 콘텐츠를 의도치 않게 스크래핑할 위험이 있어, 저자들은 정책을 인식하는 액션 필터를 요구합니다.
  • 향후 방향에는 NestBrowse를 다중 에이전트 협업(예: 한 에이전트는 탐색을 담당하고 다른 에이전트는 추론에 집중)으로 확장하고, 합성 오라클 트래젝터에 대한 의존도를 줄이기 위해 강화 학습 파인튜닝을 탐구하는 것이 포함됩니다.

저자

  • Baixuan Li
  • Jialong Wu
  • Wenbiao Yin
  • Kuan Li
  • Zhongwang Zhang
  • Huifeng Yin
  • Zhengwei Tao
  • Liwen Zhang
  • Pengjun Xie
  • Jingren Zhou
  • Yong Jiang

논문 정보

  • arXiv ID: 2512.23647v1
  • 분류: cs.CL, cs.AI, cs.IR, cs.MA
  • 출판일: 2025년 12월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »