[Paper] OpenSeeker‑v2: 정보성 및 고난이도 경로를 통한 검색 에이전트의 한계 확장

발행: (2026년 5월 6일 AM 02:55 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2605.04036v1

Overview

OpenSeeker‑v2는 순수 감독‑미세조정(SFT) 파이프라인이—신중하게 설계된 고난이도 트래젝터리를 사용했을 때—지속적인 사전 학습, SFT, 그리고 강화 학습을 결합한 훨씬 복잡한 산업 수준 파이프라인의 성능과 맞먹거나 능가할 수 있음을 보여줍니다. 단 10.6 k개의 합성 예시만을 사용해, 저자들은 30 B 파라미터 LLM을 네 가지 널리 사용되는 검색‑에이전트 벤치마크에서 최첨단 결과에 도달하도록 끌어올렸습니다.

핵심 기여

  • 단순하면서도 강력한 데이터 합성: 훈련 궤적의 정보량을 크게 증가시키는 세 가지 저비용 수정(더 큰 지식 그래프, 확장된 도구 세트, 엄격한 저단계 필터링).
  • 최소 데이터로 강력한 베이스라인: CPT나 RL 단계 없이 SFT만으로 BrowseComp, BrowseComp‑ZH, Humanity’s Last Exam, xBench에서 SOTA 달성.
  • 오픈‑소스 공개: 모델 가중치, 데이터 생성 스크립트, 평가 코드를 공개하여 학술 및 취미 연구자들의 검색 에이전트 연구 진입 장벽을 낮춤.
  • 경험적 증거: “더 어려운” 훈련 예제가 대규모 연산 집약 파이프라인의 부족을 보완할 수 있음을 보여줌.

방법론

  1. Trajectory Generation – 저자들은 기본 지식 그래프(KG)와 웹 검색 관련 API 도구 모음(예: 브라우저, 계산기)에서 시작합니다.

    • Scale up KG: 그래프를 확대하여 훨씬 더 많은 엔터티와 관계를 포함시킴으로써, 에이전트가 더 깊은 추론 경로를 탐색하도록 강제합니다.
    • Expand tool set: 추가 API(예: 번역, 요약)를 도입하여 다중 도구 협업을 촉진합니다.
    • Low‑step filtering: 작업을 ≤ 3 단계 내에 해결하는 궤적만을 유지하여, 각 단계가 높은 정보량을 담도록 합니다.
  2. Supervised Fine‑Tuning – 30 B 규모의 LLM(표준 사전 학습 체크포인트에서 초기화됨)을 10.6 k개의 필터링된 궤적에 대해 ReAct 프롬프트 패러다임(즉, 추론과 도구 사용 행동을 교차시키는 방식)으로 미세 조정합니다. 강화 학습이나 지속적인 사전 학습은 수행되지 않습니다.

  3. Evaluation – 최종 모델인 OpenSeeker‑v2는 브라우징, 다국어 이해, 복합 추론, 일반 도구 사용을 테스트하는 네 가지 검색 에이전트 스위트에서 벤치마크됩니다.

Results & Findings

BenchmarkOpenSeeker‑v2Tongyi DeepResearch (CPT+SFT+RL)
BrowseComp46.0 %43.4 %
BrowseComp‑ZH58.1 %46.7 %
Humanity’s Last Exam34.6 %32.9 %
xBench78.0 %75.0 %
  • Performance gain은 무거운 산업용 베이스라인 대비 절대값으로 2.7 %에서 11.4 %까지 차이가 난다.
  • 이 격차는 오직 SFT만으로 달성되었으며, 고품질·고난이도 트래젝터리가 단순 학습량보다 더 중요한 요인임을 확인한다.
  • Ablation 연구(초록에는 자세히 나오지 않지만 논문에 포함)에서는 세 가지 합성 트윅 각각이 긍정적인 영향을 주며, low‑step 필터가 가장 큰 향상을 제공한다.

실용적 함의

  • 리소스 장벽 감소: 수십억 파라미터 규모의 컴퓨팅 자원이 없는 팀도 이제는 소규모 GPU 클러스터와 수천 개의 합성 예시만으로 경쟁력 있는 검색 에이전트를 훈련시킬 수 있습니다.
  • 빠른 프로토타이핑: 도메인‑특화 지식 그래프(KG)나 맞춤형 툴 API를 교체함으로써, 개발자는 OpenSeeker‑v2를 내부 지식베이스 검색, 코드베이스 탐색 등 특수 검색 작업에 빠르게 적용할 수 있습니다.
  • 오픈소스 생태계: 배포된 가중치와 데이터 파이프라인은 기존 LLM 서빙 스택(예: LangChain, Llama‑Index)과 플러그‑앤‑플레이 통합을 가능하게 하며, 커뮤니티 주도의 벤치마크 확장을 촉진합니다.
  • 툴 사용 연구: 이 연구 결과는 점점 커지는 RL 보상 모델에 의존하기보다 trajectory quality engineering(더 어렵고 정보량이 풍부한 예시 설계)으로의 전환을 장려합니다.

제한 사항 및 향후 연구

  • 스케일 한계: 이 연구는 30 B 모델에 초점을 맞추고 있으며, 동일한 SFT‑only 레시피가 더 작거나 훨씬 큰 모델에 어떻게 확장되는지는 아직 명확하지 않습니다.
  • 합성 편향: 트래젝터리는 지식 그래프와 고정된 도구 집합에서 생성되므로 실제 웹 상호작용의 전체 다양성을 포착하지 못할 수 있습니다.
  • 보지 못한 도구에 대한 일반화: 재학습 없이 완전히 새로운 API를 모델이 통합할 수 있는 능력은 평가되지 않았습니다.
  • 향후 방향은 저자들이 제안한 바와 같이 (1) 동적 웹 크롤링 데이터를 활용해 KG를 확장하고, (2) 커리큘럼 학습을 탐색해 트래젝터리 난이도를 점진적으로 높이며, (3) 가장 어려운 벤치마크에서 격차를 줄이기 위해 경량 RL 파인‑튜닝과 SFT 베이스라인을 결합하는 것을 포함합니다.

저자

  • Yuwen Du
  • Rui Ye
  • Shuo Tang
  • Keduan Huang
  • Xinyu Zhu
  • Yuzhu Cai
  • Siheng Chen

논문 정보

  • arXiv ID: 2605.04036v1
  • 카테고리: cs.AI, cs.CL
  • 출판일: 2026년 5월 5일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »