[Paper] 중첩된 Browser-Use Learning for Agentic Information Seeking
Source: arXiv - 2512.23647v1
Overview
논문 **“Nested Browser‑Use Learning for Agentic Information Seeking”**은 현대 AI 어시스턴트에서 실용적인 병목 현상을 해결합니다: 대부분의 에이전트는 API를 통해 원시 스니펫이나 URL만 가져올 수 있어 인터랙티브 웹 페이지 뒤에 숨겨진 방대한 정보를 놓치고 있습니다. 저자들은 NestBrowse라는 가볍고 계층적인 브라우저‑액션 프레임워크를 도입함으로써, 에이전트가 높은 수준에서 브라우징을 제어하면서도 복잡하고 동적인 사이트를 깊이 탐색할 수 있게 하여, 보다 풍부하고 신뢰할 수 있는 정보‑탐색 능력을 열어줍니다.
주요 기여
- Nested Browser‑Action API – 제어 흐름(예: “이 버튼을 클릭”)과 콘텐츠 탐색(예: “스크롤하고 페이지를 읽기”)을 분리하는 최소하지만 완전한 액션 집합.
- NestBrowse Learning Paradigm – 에이전트가 중첩 액션을 발행하도록 훈련시켜 “새 페이지를 언제 열지”와 “현재 페이지에서 데이터를 어떻게 추출할지”를 추론하게 함.
- Deep‑Web 벤치마크에 대한 실증 검증 – 다단계 탐색, 양식 작성, 페이지네이션이 필요한 작업에서 기존 ReAct‑스타일 에이전트 대비 일관된 성능 향상을 입증.
- 효율성 및 유연성 분석 – 중첩 설계가 필요한 API 호출 수를 감소시키고 최소한의 코드 변경으로 기존 LLM‑기반 에이전트에 적용 가능함을 보여줌.
Source: …
Methodology
-
Action Space Design
- High‑level actions (
open_page,close_page)는 브라우저 스택을 관리합니다. - Low‑level actions (
click,type,scroll,extract)는 현재 활성화된 페이지 내에서 동작합니다. - 이러한 중첩 구조는 트리‑형 실행 추적을 생성합니다: 새로운 페이지가 열릴 때마다 자식 노드가 생성되어 컨텍스트를 보존하고, 부모의 추론은 그대로 유지됩니다.
- High‑level actions (
-
Training Loop
- 저자들은 규칙 기반 “오라클”을 사용해 각 벤치마크 과제를 해결하는 합성 브라우징 궤적을 생성합니다.
- 이 궤적을 중첩된 액션 시퀀스로 변환한 뒤, 표준 LLM(예: GPT‑4)을 지도 학습으로 파인튜닝합니다.
- 추론 단계에서 모델은 다음 액션을 예측하고, 브라우저 시뮬레이터가 이를 실행한 뒤 간결한 관찰값(예: 추출된 텍스트, DOM 스냅샷)을 반환하고, 이 과정을 반복합니다.
-
Evaluation Setup
- 벤치마크에는 DeepWebQA, Multi‑Page Retrieval, Form‑Filling Search가 포함되며, 각각 최소 세 번 이상의 네비게이션 단계와 동적 콘텐츠와의 상호작용을 요구합니다.
- 비교 대상: 일반 ReAct 에이전트(API‑only), 평면 브라우저 액션을 사용하는 툴‑콜링 에이전트, 그리고 수작업 규칙 기반 크롤러.
결과 및 발견
| Benchmark | NestBrowse | ReAct‑API | Flat‑Browser | Rule‑Crawler |
|---|---|---|---|---|
| DeepWebQA | 78.4 % | 62.1 % | 71.3 % | 55.8 % |
| Multi‑Page Retrieval | 84.7 % | 68.9 % | 77.5 % | 61.2 % |
| Form‑Filling Search | 81.2 % | 65.4 % | 73.0 % | 58.9 % |
- 모든 작업에서 높은 정확도, 특히 3회 이상 깊은 탐색이 필요한 경우에 두드러짐.
- 플랫‑브라우저 에이전트에 비해 API 호출이 약 30 % 감소, 중첩 구조가 중복 페이지 로드를 방지함.
- 레이아웃 변화에 대한 견고성: 계층적 컨텍스트가 클릭 후 페이지 DOM이 변해도 모델이 복구하도록 도움.
실용적인 시사점
- Richer ChatGPT‑style assistants – 개발자는 이제 NestBrowse 모듈을 삽입하여 어시스턴트가 로그인 제한, 무한 스크롤, 인터랙티브 차트 뒤에 있는 정보를 “조회”하도록 할 수 있어, 보다 최신의 답변을 제공합니다.
- Enterprise knowledge retrieval – 레거시 웹 포털(예: 티켓 시스템, 재고 대시보드)에서 데이터를 스크래핑해야 하는 내부 도구들을 각 사이트마다 맞춤형 스크래퍼를 작성하지 않고 자동화할 수 있습니다.
- Reduced engineering overhead – API가 의도적으로 작게 설계되어 있어, 기존 LangChain 또는 LlamaIndex 파이프라인에 통합할 때 몇 개의 래퍼 함수만 필요합니다.
- Cost efficiency – 브라우저와의 왕복 횟수가 줄어들어 컴퓨팅 시간이 감소하고, 호스팅된 LLM 서비스의 API 사용 비용이 낮아집니다.
제한 사항 및 향후 작업
- 시뮬레이션 vs. 실제 브라우저 – 실험은 헤드리스 Chromium 시뮬레이터에서 수행되었으며, JavaScript 중심 사이트(예: SPA)에서는 성능이 다를 수 있습니다.
- 액션 시퀀스의 확장성 – 매우 긴 탐색 트리(>10 레벨)는 현재 LLM 토큰 제한으로 인해 컨텍스트 오버플로가 발생할 수 있습니다.
- 보안 및 윤리 – 자동 브라우징은 저작권이 있거나 개인적인 콘텐츠를 의도치 않게 스크래핑할 위험이 있어, 저자들은 정책을 인식하는 액션 필터를 요구합니다.
- 향후 방향에는 NestBrowse를 다중 에이전트 협업(예: 한 에이전트는 탐색을 담당하고 다른 에이전트는 추론에 집중)으로 확장하고, 합성 오라클 트래젝터에 대한 의존도를 줄이기 위해 강화 학습 파인튜닝을 탐구하는 것이 포함됩니다.
저자
- Baixuan Li
- Jialong Wu
- Wenbiao Yin
- Kuan Li
- Zhongwang Zhang
- Huifeng Yin
- Zhengwei Tao
- Liwen Zhang
- Pengjun Xie
- Jingren Zhou
- Yong Jiang
논문 정보
- arXiv ID: 2512.23647v1
- 분류: cs.CL, cs.AI, cs.IR, cs.MA
- 출판일: 2025년 12월 29일
- PDF: PDF 다운로드