[Paper] OpenSeeker: 학습 데이터를 완전 오픈소스화함으로써 프론티어 검색 에이전트를 민주화

발행: (2026년 3월 17일 AM 02:52 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.15594v1

개요

OpenSeeker는 완전 오픈‑소스 프론티어 검색 에이전트로, 상업적으로 지원되는 시스템과 동등하거나 심지어 능가합니다. 모델 가중치 전체 학습 데이터셋을 모두 공개함으로써, 저자들은 개발자들에게 일반적인 데이터 접근 장벽 없이 고성능 검색‑강화 LLM을 실험할 수 있는 드문 기회를 제공합니다.

주요 기여

  • 오픈‑소스 엔드‑투‑엔드 파이프라인: 모델, 학습 데이터, 그리고 코드는 모두 공개되어 있습니다.
  • 사실‑기반 확장 가능한 QA 합성: 웹‑그래프 토폴로지를 확장하고 엔터티를 난독화하여 다중‑홉, 엔터티‑풍부한 질문을 프로그래밍 방식으로 생성하는 새로운 방법으로, 난이도와 커버리지를 세밀하게 제어할 수 있습니다.
  • 노이즈 제거된 트래젝터리 합성: 잡음이 섞인 행동 추적을 정리하는 회고적 요약 단계로, 교사 LLM이 더 높은 품질의 “검색‑답변” 시연을 생성하도록 합니다.
  • 데이터‑효율적인 학습: 여러 벤치마크 스위트(BrowseComp, BrowseComp‑ZH, xbench‑DeepSearch, WideSearch)에서 최첨단 결과를 달성하려면 11.7 k개의 합성 예시만 필요합니다.
  • 강력한 실증 성능: 이전 오픈‑소스 베이스라인 DeepDive보다 약 14 pp 향상되었으며, 일부 폐쇄형 산업 에이전트(예: 중국 벤치마크에서 Tongyi DeepResearch)보다도 뛰어납니다.

방법론

  1. Web‑graph reverse engineering – 시드 엔터티 집합에서 시작하여 저자들은 하이퍼링크 구조를 활용해 외부로 확장함으로써 실제 정보 흐름을 모방하는 합성 “웹 그래프”를 구축합니다.
  2. Entity obfuscation & controllable QA generation – 그래프 내 엔터티를 마스킹하거나 플레이스홀더로 교체한 뒤, 강력한 교사 LLM에게 그래프를 탐색해야 하는 다단계 질문을 묻고 답하도록 프롬프트합니다. 이 과정을 통해 연구자들은 홉 수, 주제의 폭, 사실 기반을 자유롭게 조절할 수 있습니다.
  3. Trajectory creation & denoising – 각 QA 쌍에 대해 단계별 검색 궤적(예: “페이지 열기 → 스니펫 추출 → 질의 → 답변 합성”)을 생성합니다. 이후 두 번째 LLM이 이러한 트레이스를 요약하고 필터링하여, 죽은 경로나 환각을 제거하고 깨끗한 시연 데이터를 제공합니다.
  4. Fine‑tuning – 목표 검색 에이전트는 선별된 데이터셋을 사용해 단일 감독 미세조정(SFT) 실행만으로 학습되며, 추가적인 지속적 사전학습이나 강화학습 루프는 필요하지 않습니다.

이 파이프라인은 의도적으로 모듈식으로 설계되어, 개발자들이 다양한 교사 모델을 교체하거나 그래프 확장 깊이를 조정하고, 맞춤형 디노이징 휴리스틱을 적용할 수 있습니다.

결과 및 발견

BenchmarkOpenSeekerDeepDive (open)Tongyi DeepResearch (closed)
BrowseComp (EN)29.5 %15.3 %
BrowseComp‑ZH (CN)48.4 %46.7 %
xbench‑DeepSearchState‑of‑the‑art
WideSearchState‑of‑the‑art
  • 데이터 효율성: 약 12 k개의 합성 예시만으로도 이러한 수치를 달성했으며, 많은 산업 파이프라인은 수백만 개의 웹‑크롤링 상호작용에 의존합니다.
  • 단순함이 승리: 단일 SFT 단계가 지속적인 사전 학습 및 강화 학습 미세 조정이 필요한 베이스라인보다 우수한 성능을 보였습니다.
  • 다언어 강인성: 동일한 파이프라인이 고품질의 중국어 QA/trajectory를 생성하여 언어에 구애받지 않는 잠재력을 보여줍니다.

Practical Implications

  • Rapid prototyping: 팀은 이제 대규모 크롤링 파이프라인을 구축하거나 독점 데이터 라이선스를 협상하지 않고도 검색 기반 어시스턴트를 빠르게 시작할 수 있습니다.
  • Custom domain adaptation: 데이터 합성 과정을 제어할 수 있기 때문에 개발자는 도메인별 그래프(예: 내부 문서, API 레퍼런스)를 생성하고 기업 지식 베이스에 맞게 OpenSeeker를 미세 조정할 수 있습니다.
  • Benchmarking & research: OpenSeeker는 새로운 프롬프트 전략, 검색 기반 생성(RAG) 기술, 혹은 안전 필터를 평가하기 위한 투명한 기준선을 제공합니다.
  • Cost reduction: 지속적인 사전 학습 및 RL이 필요 없게 함으로써 컴퓨팅 비용을 크게 절감합니다—GPU 예산이 제한된 스타트업이나 학술 연구실에 특히 중요합니다.
  • Community collaboration: 오픈 데이터셋은 새로운 그래프 확장 규칙 추가, 다국어 확장 등 기여를 장려하여 생태계 전반에 걸친 검색 에이전트의 발전을 가속화할 수 있습니다.

제한 사항 및 향후 작업

  • Synthetic bias: 그래프 기반 합성은 사실 기반을 목표로 하지만, 여전히 기반이 되는 웹 스냅샷과 교사 LLM의 편향을 반영합니다. 실제 세계의 잡음이 많은 웹 데이터는 다른 실패 모드를 드러낼 수 있습니다.
  • Scale ceiling: 현재 실험은 약 12 k 샘플에서 멈추며, 더 크고 다양해진 합성 코퍼스로 성능이 어떻게 확장되는지는 아직 불분명합니다.
  • Evaluation breadth: 벤치마크는 브라우징 스타일 작업에 초점을 맞추고 있어, 코드 검색, 과학 논문 검색 등 다른 검색 방식에 대해서는 별도의 테스트가 필요합니다.
  • Continual learning: 저자들은 경량 연속 사전 학습이나 강화 학습(RL)을 통합하면 최신 독점 에이전트와의 격차를 더욱 줄일 수 있다고 언급합니다.

OpenSeeker는 고성능 검색 에이전트를 민주화하는 중요한 단계이며, 개발자에게 바로 사용할 수 있는 기반과 재현 가능한 데이터 파이프라인을 제공하여 연구의 최전선을 더욱 확장할 수 있게 합니다.

저자

  • Yuwen Du
  • Rui Ye
  • Shuo Tang
  • Xinyu Zhu
  • Yijun Lu
  • Yuzhu Cai
  • Siheng Chen

논문 정보

  • arXiv ID: 2603.15594v1
  • 카테고리: cs.AI, cs.CL
  • 출판일: 2026년 3월 16일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 깊이 혼합 Attention

스케일링 깊이는 대형 언어 모델(LLMs)의 핵심 동인입니다. 그러나 LLM이 깊어짐에 따라 종종 신호 저하를 겪습니다: 유익한 특징이…