[Paper] 중첩된 Browser-Use Learning for Agentic Information Seeking

발행: 1주 전 (2025년 12월 30일 오전 02:59 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.23647v1

Overview

논문 **“Nested Browser‑Use Learning for Agentic Information Seeking”**은 현대 AI 어시스턴트에서 실용적인 병목 현상을 해결합니다: 대부분의 에이전트는 API를 통해 원시 스니펫이나 URL만 가져올 수 있어 인터랙티브 웹 페이지 뒤에 숨겨진 방대한 정보를 놓치고 있습니다. 저자들은 NestBrowse라는 가볍고 계층적인 브라우저‑액션 프레임워크를 도입함으로써, 에이전트가 높은 수준에서 브라우징을 제어하면서도 복잡하고 동적인 사이트를 깊이 탐색할 수 있게 하여, 보다 풍부하고 신뢰할 수 있는 정보‑탐색 능력을 열어줍니다.

주요 기여

Nested Browser‑Action API – 제어 흐름(예: “이 버튼을 클릭”)과 콘텐츠 탐색(예: “스크롤하고 페이지를 읽기”)을 분리하는 최소하지만 완전한 액션 집합.
NestBrowse Learning Paradigm – 에이전트가 중첩 액션을 발행하도록 훈련시켜 “새 페이지를 언제 열지”와 “현재 페이지에서 데이터를 어떻게 추출할지”를 추론하게 함.
Deep‑Web 벤치마크에 대한 실증 검증 – 다단계 탐색, 양식 작성, 페이지네이션이 필요한 작업에서 기존 ReAct‑스타일 에이전트 대비 일관된 성능 향상을 입증.
효율성 및 유연성 분석 – 중첩 설계가 필요한 API 호출 수를 감소시키고 최소한의 코드 변경으로 기존 LLM‑기반 에이전트에 적용 가능함을 보여줌.

Source: …

Methodology

Action Space Design
- High‑level actions (open_page, close_page)는 브라우저 스택을 관리합니다.
- Low‑level actions (click, type, scroll, extract)는 현재 활성화된 페이지 내에서 동작합니다.
- 이러한 중첩 구조는 트리‑형 실행 추적을 생성합니다: 새로운 페이지가 열릴 때마다 자식 노드가 생성되어 컨텍스트를 보존하고, 부모의 추론은 그대로 유지됩니다.
Training Loop
- 저자들은 규칙 기반 “오라클”을 사용해 각 벤치마크 과제를 해결하는 합성 브라우징 궤적을 생성합니다.
- 이 궤적을 중첩된 액션 시퀀스로 변환한 뒤, 표준 LLM(예: GPT‑4)을 지도 학습으로 파인튜닝합니다.
- 추론 단계에서 모델은 다음 액션을 예측하고, 브라우저 시뮬레이터가 이를 실행한 뒤 간결한 관찰값(예: 추출된 텍스트, DOM 스냅샷)을 반환하고, 이 과정을 반복합니다.
Evaluation Setup
- 벤치마크에는 DeepWebQA, Multi‑Page Retrieval, Form‑Filling Search가 포함되며, 각각 최소 세 번 이상의 네비게이션 단계와 동적 콘텐츠와의 상호작용을 요구합니다.
- 비교 대상: 일반 ReAct 에이전트(API‑only), 평면 브라우저 액션을 사용하는 툴‑콜링 에이전트, 그리고 수작업 규칙 기반 크롤러.

결과 및 발견

Benchmark	NestBrowse	ReAct‑API	Flat‑Browser	Rule‑Crawler
DeepWebQA	78.4 %	62.1 %	71.3 %	55.8 %
Multi‑Page Retrieval	84.7 %	68.9 %	77.5 %	61.2 %
Form‑Filling Search	81.2 %	65.4 %	73.0 %	58.9 %

모든 작업에서 높은 정확도, 특히 3회 이상 깊은 탐색이 필요한 경우에 두드러짐.
플랫‑브라우저 에이전트에 비해 API 호출이 약 30 % 감소, 중첩 구조가 중복 페이지 로드를 방지함.
레이아웃 변화에 대한 견고성: 계층적 컨텍스트가 클릭 후 페이지 DOM이 변해도 모델이 복구하도록 도움.

실용적인 시사점

Richer ChatGPT‑style assistants – 개발자는 이제 NestBrowse 모듈을 삽입하여 어시스턴트가 로그인 제한, 무한 스크롤, 인터랙티브 차트 뒤에 있는 정보를 “조회”하도록 할 수 있어, 보다 최신의 답변을 제공합니다.
Enterprise knowledge retrieval – 레거시 웹 포털(예: 티켓 시스템, 재고 대시보드)에서 데이터를 스크래핑해야 하는 내부 도구들을 각 사이트마다 맞춤형 스크래퍼를 작성하지 않고 자동화할 수 있습니다.
Reduced engineering overhead – API가 의도적으로 작게 설계되어 있어, 기존 LangChain 또는 LlamaIndex 파이프라인에 통합할 때 몇 개의 래퍼 함수만 필요합니다.
Cost efficiency – 브라우저와의 왕복 횟수가 줄어들어 컴퓨팅 시간이 감소하고, 호스팅된 LLM 서비스의 API 사용 비용이 낮아집니다.

제한 사항 및 향후 작업

시뮬레이션 vs. 실제 브라우저 – 실험은 헤드리스 Chromium 시뮬레이터에서 수행되었으며, JavaScript 중심 사이트(예: SPA)에서는 성능이 다를 수 있습니다.
액션 시퀀스의 확장성 – 매우 긴 탐색 트리(>10 레벨)는 현재 LLM 토큰 제한으로 인해 컨텍스트 오버플로가 발생할 수 있습니다.
향후 방향에는 NestBrowse를 다중 에이전트 협업(예: 한 에이전트는 탐색을 담당하고 다른 에이전트는 추론에 집중)으로 확장하고, 합성 오라클 트래젝터에 대한 의존도를 줄이기 위해 강화 학습 파인튜닝을 탐구하는 것이 포함됩니다.

저자

Baixuan Li
Jialong Wu
Wenbiao Yin
Kuan Li
Zhongwang Zhang
Huifeng Yin
Zhengwei Tao
Liwen Zhang
Pengjun Xie
Jingren Zhou
Yong Jiang

논문 정보

arXiv ID: 2512.23647v1
분류: cs.CL, cs.AI, cs.IR, cs.MA
출판일: 2025년 12월 29일
PDF: PDF 다운로드

[Paper] 중첩된 Browser-Use Learning for Agentic Information Seeking

Overview

주요 기여

Methodology

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] FLEx: Few-shot 언어 설명을 활용한 언어 모델링

[Paper] ContextFocus: 대규모 언어 모델의 맥락적 충실도를 위한 활성화 스티어링

[Paper] InfiniteWeb: GUI 에이전트 훈련을 위한 확장 가능한 웹 환경 합성

[Paper] 계층별 Positional Bias in Short-Context Language Modeling