[Paper] OpenSeeker: 학습 데이터를 완전 오픈소스화함으로써 프론티어 검색 에이전트를 민주화
Source: arXiv - 2603.15594v1
개요
OpenSeeker는 완전 오픈‑소스 프론티어 검색 에이전트로, 상업적으로 지원되는 시스템과 동등하거나 심지어 능가합니다. 모델 가중치 와 전체 학습 데이터셋을 모두 공개함으로써, 저자들은 개발자들에게 일반적인 데이터 접근 장벽 없이 고성능 검색‑강화 LLM을 실험할 수 있는 드문 기회를 제공합니다.
주요 기여
- 오픈‑소스 엔드‑투‑엔드 파이프라인: 모델, 학습 데이터, 그리고 코드는 모두 공개되어 있습니다.
- 사실‑기반 확장 가능한 QA 합성: 웹‑그래프 토폴로지를 확장하고 엔터티를 난독화하여 다중‑홉, 엔터티‑풍부한 질문을 프로그래밍 방식으로 생성하는 새로운 방법으로, 난이도와 커버리지를 세밀하게 제어할 수 있습니다.
- 노이즈 제거된 트래젝터리 합성: 잡음이 섞인 행동 추적을 정리하는 회고적 요약 단계로, 교사 LLM이 더 높은 품질의 “검색‑답변” 시연을 생성하도록 합니다.
- 데이터‑효율적인 학습: 여러 벤치마크 스위트(BrowseComp, BrowseComp‑ZH, xbench‑DeepSearch, WideSearch)에서 최첨단 결과를 달성하려면 11.7 k개의 합성 예시만 필요합니다.
- 강력한 실증 성능: 이전 오픈‑소스 베이스라인 DeepDive보다 약 14 pp 향상되었으며, 일부 폐쇄형 산업 에이전트(예: 중국 벤치마크에서 Tongyi DeepResearch)보다도 뛰어납니다.
방법론
- Web‑graph reverse engineering – 시드 엔터티 집합에서 시작하여 저자들은 하이퍼링크 구조를 활용해 외부로 확장함으로써 실제 정보 흐름을 모방하는 합성 “웹 그래프”를 구축합니다.
- Entity obfuscation & controllable QA generation – 그래프 내 엔터티를 마스킹하거나 플레이스홀더로 교체한 뒤, 강력한 교사 LLM에게 그래프를 탐색해야 하는 다단계 질문을 묻고 답하도록 프롬프트합니다. 이 과정을 통해 연구자들은 홉 수, 주제의 폭, 사실 기반을 자유롭게 조절할 수 있습니다.
- Trajectory creation & denoising – 각 QA 쌍에 대해 단계별 검색 궤적(예: “페이지 열기 → 스니펫 추출 → 질의 → 답변 합성”)을 생성합니다. 이후 두 번째 LLM이 이러한 트레이스를 요약하고 필터링하여, 죽은 경로나 환각을 제거하고 깨끗한 시연 데이터를 제공합니다.
- Fine‑tuning – 목표 검색 에이전트는 선별된 데이터셋을 사용해 단일 감독 미세조정(SFT) 실행만으로 학습되며, 추가적인 지속적 사전학습이나 강화학습 루프는 필요하지 않습니다.
이 파이프라인은 의도적으로 모듈식으로 설계되어, 개발자들이 다양한 교사 모델을 교체하거나 그래프 확장 깊이를 조정하고, 맞춤형 디노이징 휴리스틱을 적용할 수 있습니다.
결과 및 발견
| Benchmark | OpenSeeker | DeepDive (open) | Tongyi DeepResearch (closed) |
|---|---|---|---|
| BrowseComp (EN) | 29.5 % | 15.3 % | – |
| BrowseComp‑ZH (CN) | 48.4 % | – | 46.7 % |
| xbench‑DeepSearch | State‑of‑the‑art | – | – |
| WideSearch | State‑of‑the‑art | – | – |
- 데이터 효율성: 약 12 k개의 합성 예시만으로도 이러한 수치를 달성했으며, 많은 산업 파이프라인은 수백만 개의 웹‑크롤링 상호작용에 의존합니다.
- 단순함이 승리: 단일 SFT 단계가 지속적인 사전 학습 및 강화 학습 미세 조정이 필요한 베이스라인보다 우수한 성능을 보였습니다.
- 다언어 강인성: 동일한 파이프라인이 고품질의 중국어 QA/trajectory를 생성하여 언어에 구애받지 않는 잠재력을 보여줍니다.
Practical Implications
- Rapid prototyping: 팀은 이제 대규모 크롤링 파이프라인을 구축하거나 독점 데이터 라이선스를 협상하지 않고도 검색 기반 어시스턴트를 빠르게 시작할 수 있습니다.
- Custom domain adaptation: 데이터 합성 과정을 제어할 수 있기 때문에 개발자는 도메인별 그래프(예: 내부 문서, API 레퍼런스)를 생성하고 기업 지식 베이스에 맞게 OpenSeeker를 미세 조정할 수 있습니다.
- Benchmarking & research: OpenSeeker는 새로운 프롬프트 전략, 검색 기반 생성(RAG) 기술, 혹은 안전 필터를 평가하기 위한 투명한 기준선을 제공합니다.
- Cost reduction: 지속적인 사전 학습 및 RL이 필요 없게 함으로써 컴퓨팅 비용을 크게 절감합니다—GPU 예산이 제한된 스타트업이나 학술 연구실에 특히 중요합니다.
- Community collaboration: 오픈 데이터셋은 새로운 그래프 확장 규칙 추가, 다국어 확장 등 기여를 장려하여 생태계 전반에 걸친 검색 에이전트의 발전을 가속화할 수 있습니다.
제한 사항 및 향후 작업
- Synthetic bias: 그래프 기반 합성은 사실 기반을 목표로 하지만, 여전히 기반이 되는 웹 스냅샷과 교사 LLM의 편향을 반영합니다. 실제 세계의 잡음이 많은 웹 데이터는 다른 실패 모드를 드러낼 수 있습니다.
- Scale ceiling: 현재 실험은 약 12 k 샘플에서 멈추며, 더 크고 다양해진 합성 코퍼스로 성능이 어떻게 확장되는지는 아직 불분명합니다.
- Evaluation breadth: 벤치마크는 브라우징 스타일 작업에 초점을 맞추고 있어, 코드 검색, 과학 논문 검색 등 다른 검색 방식에 대해서는 별도의 테스트가 필요합니다.
- Continual learning: 저자들은 경량 연속 사전 학습이나 강화 학습(RL)을 통합하면 최신 독점 에이전트와의 격차를 더욱 줄일 수 있다고 언급합니다.
OpenSeeker는 고성능 검색 에이전트를 민주화하는 중요한 단계이며, 개발자에게 바로 사용할 수 있는 기반과 재현 가능한 데이터 파이프라인을 제공하여 연구의 최전선을 더욱 확장할 수 있게 합니다.
저자
- Yuwen Du
- Rui Ye
- Shuo Tang
- Xinyu Zhu
- Yijun Lu
- Yuzhu Cai
- Siheng Chen
논문 정보
- arXiv ID: 2603.15594v1
- 카테고리: cs.AI, cs.CL
- 출판일: 2026년 3월 16일
- PDF: PDF 다운로드