[Paper] OpenSeeker‑v2: 정보성 및 고난이도 경로를 통한 검색 에이전트의 한계 확장
Source: arXiv - 2605.04036v1
Overview
OpenSeeker‑v2는 순수 감독‑미세조정(SFT) 파이프라인이—신중하게 설계된 고난이도 트래젝터리를 사용했을 때—지속적인 사전 학습, SFT, 그리고 강화 학습을 결합한 훨씬 복잡한 산업 수준 파이프라인의 성능과 맞먹거나 능가할 수 있음을 보여줍니다. 단 10.6 k개의 합성 예시만을 사용해, 저자들은 30 B 파라미터 LLM을 네 가지 널리 사용되는 검색‑에이전트 벤치마크에서 최첨단 결과에 도달하도록 끌어올렸습니다.
핵심 기여
- 단순하면서도 강력한 데이터 합성: 훈련 궤적의 정보량을 크게 증가시키는 세 가지 저비용 수정(더 큰 지식 그래프, 확장된 도구 세트, 엄격한 저단계 필터링).
- 최소 데이터로 강력한 베이스라인: CPT나 RL 단계 없이 SFT만으로 BrowseComp, BrowseComp‑ZH, Humanity’s Last Exam, xBench에서 SOTA 달성.
- 오픈‑소스 공개: 모델 가중치, 데이터 생성 스크립트, 평가 코드를 공개하여 학술 및 취미 연구자들의 검색 에이전트 연구 진입 장벽을 낮춤.
- 경험적 증거: “더 어려운” 훈련 예제가 대규모 연산 집약 파이프라인의 부족을 보완할 수 있음을 보여줌.
방법론
-
Trajectory Generation – 저자들은 기본 지식 그래프(KG)와 웹 검색 관련 API 도구 모음(예: 브라우저, 계산기)에서 시작합니다.
- Scale up KG: 그래프를 확대하여 훨씬 더 많은 엔터티와 관계를 포함시킴으로써, 에이전트가 더 깊은 추론 경로를 탐색하도록 강제합니다.
- Expand tool set: 추가 API(예: 번역, 요약)를 도입하여 다중 도구 협업을 촉진합니다.
- Low‑step filtering: 작업을 ≤ 3 단계 내에 해결하는 궤적만을 유지하여, 각 단계가 높은 정보량을 담도록 합니다.
-
Supervised Fine‑Tuning – 30 B 규모의 LLM(표준 사전 학습 체크포인트에서 초기화됨)을 10.6 k개의 필터링된 궤적에 대해 ReAct 프롬프트 패러다임(즉, 추론과 도구 사용 행동을 교차시키는 방식)으로 미세 조정합니다. 강화 학습이나 지속적인 사전 학습은 수행되지 않습니다.
-
Evaluation – 최종 모델인 OpenSeeker‑v2는 브라우징, 다국어 이해, 복합 추론, 일반 도구 사용을 테스트하는 네 가지 검색 에이전트 스위트에서 벤치마크됩니다.
Results & Findings
| Benchmark | OpenSeeker‑v2 | Tongyi DeepResearch (CPT+SFT+RL) |
|---|---|---|
| BrowseComp | 46.0 % | 43.4 % |
| BrowseComp‑ZH | 58.1 % | 46.7 % |
| Humanity’s Last Exam | 34.6 % | 32.9 % |
| xBench | 78.0 % | 75.0 % |
- Performance gain은 무거운 산업용 베이스라인 대비 절대값으로 2.7 %에서 11.4 %까지 차이가 난다.
- 이 격차는 오직 SFT만으로 달성되었으며, 고품질·고난이도 트래젝터리가 단순 학습량보다 더 중요한 요인임을 확인한다.
- Ablation 연구(초록에는 자세히 나오지 않지만 논문에 포함)에서는 세 가지 합성 트윅 각각이 긍정적인 영향을 주며, low‑step 필터가 가장 큰 향상을 제공한다.
실용적 함의
- 리소스 장벽 감소: 수십억 파라미터 규모의 컴퓨팅 자원이 없는 팀도 이제는 소규모 GPU 클러스터와 수천 개의 합성 예시만으로 경쟁력 있는 검색 에이전트를 훈련시킬 수 있습니다.
- 빠른 프로토타이핑: 도메인‑특화 지식 그래프(KG)나 맞춤형 툴 API를 교체함으로써, 개발자는 OpenSeeker‑v2를 내부 지식베이스 검색, 코드베이스 탐색 등 특수 검색 작업에 빠르게 적용할 수 있습니다.
- 오픈소스 생태계: 배포된 가중치와 데이터 파이프라인은 기존 LLM 서빙 스택(예: LangChain, Llama‑Index)과 플러그‑앤‑플레이 통합을 가능하게 하며, 커뮤니티 주도의 벤치마크 확장을 촉진합니다.
- 툴 사용 연구: 이 연구 결과는 점점 커지는 RL 보상 모델에 의존하기보다 trajectory quality engineering(더 어렵고 정보량이 풍부한 예시 설계)으로의 전환을 장려합니다.
제한 사항 및 향후 연구
- 스케일 한계: 이 연구는 30 B 모델에 초점을 맞추고 있으며, 동일한 SFT‑only 레시피가 더 작거나 훨씬 큰 모델에 어떻게 확장되는지는 아직 명확하지 않습니다.
- 합성 편향: 트래젝터리는 지식 그래프와 고정된 도구 집합에서 생성되므로 실제 웹 상호작용의 전체 다양성을 포착하지 못할 수 있습니다.
- 보지 못한 도구에 대한 일반화: 재학습 없이 완전히 새로운 API를 모델이 통합할 수 있는 능력은 평가되지 않았습니다.
- 향후 방향은 저자들이 제안한 바와 같이 (1) 동적 웹 크롤링 데이터를 활용해 KG를 확장하고, (2) 커리큘럼 학습을 탐색해 트래젝터리 난이도를 점진적으로 높이며, (3) 가장 어려운 벤치마크에서 격차를 줄이기 위해 경량 RL 파인‑튜닝과 SFT 베이스라인을 결합하는 것을 포함합니다.
저자
- Yuwen Du
- Rui Ye
- Shuo Tang
- Keduan Huang
- Xinyu Zhu
- Yuzhu Cai
- Siheng Chen
논문 정보
- arXiv ID: 2605.04036v1
- 카테고리: cs.AI, cs.CL
- 출판일: 2026년 5월 5일
- PDF: Download PDF