[Paper] LongSeeker: 장기 지평 검색 에이전트를 위한 탄력적인 컨텍스트 오케스트레이션
Source: arXiv - 2605.05191v1
번역할 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 마크다운 형식은 그대로 유지됩니다.)
Overview
LongSeeker는 자율 탐색 에이전트의 핵심 병목 현상을 해결합니다. 에이전트가 탐색하고, 추론하고, 도구를 호출하면서 내부 “작업 메모리”가 급증할 수 있어 추론 비용이 증가하고 환각 현상이 늘어납니다. 저자들은 현재 관련된 내용에 따라 에이전트가 메모리를 동적으로 압축·정리·확장할 수 있게 하는 elastic context orchestration 프레임워크를 제안합니다. 이를 통해 훨씬 적은 오버헤드로 신뢰할 수 있는 장기 탐색이 가능해집니다.
주요 기여
- Context‑ReAct 패러다임 – 추론, 도구 사용, 컨텍스트 관리를 결합하는 통합 루프이며, 다섯 가지 원자 연산 Skip, Compress, Rollback, Snippet, Delete 로 구성됩니다.
Compress연산자에 대한 표현적 완전성 증명, 이를 통해 모든 컨텍스트 변환을 해당 연산으로 표현할 수 있음을 보여줍니다.- 특수 연산자에 대한 효율성 및 충실도 보장, 토큰 사용량과 환각 위험을 줄이면서 답변 품질을 유지합니다.
- LongSeeker 에이전트 – Context‑ReAct를 구현한 Qwen3‑30B‑A3B 기반 모델로, 10 k개의 합성 장기 검색 트래젝터리를 사용해 파인튜닝되었습니다.
- 네 가지 검색 벤치마크에서 뛰어난 실증적 향상 (예: BrowseComp에서 61.5 % vs. 43.2 %), 적응형 컨텍스트 처리의 실용적 가치를 입증합니다.
방법론
- 문제 프레이밍 – 저자들은 검색 에피소드를 상태(관찰, 도구 호출, 추론 단계)의 연속으로 본다. 모든 상태를 그대로 유지하면 토큰 한도를 금방 초과한다.
- 탄력적 컨텍스트 연산
- Skip: 다음 행동을 생성할 때 관련 없는 과거 단계를 무시한다.
- Compress: 논리적 의존성을 유지하면서 하위 궤적을 간결한 요약으로 교체한다.
- Rollback: 대안적인 분기를 탐색하기 위해 이전 상태로 되돌린다.
- Snippet: 메모리에 보관할 핵심 증거와 같은 집중된 발췌를 추출한다.
- Delete: 죽음에 이른 분기를 영구적으로 삭제한다.
- Context‑ReAct 루프 – 각 단계에서 에이전트는 (경량 정책 네트워크를 통해) 어떤 연산을 적용할지 결정하고, 새롭게 형성된 컨텍스트를 사용해 추론이나 도구 호출을 진행한다.
- 학습 데이터 – “교사” 플래너가 다섯 연산을 최적 활용하는 10 k개의 합성 궤적을 생성했다. LongSeeker는 이 데이터를 기반으로 파인‑튜닝되어 언제, 어떻게 메모리를 재구성할지 학습한다.
- 평가 – 벤치마크는 다중 턴 웹 브라우징, 사실 찾기, 다국어 검색 과제를 포함한다. 측정 지표는 작업 성공률과 토큰 소비량에 초점을 맞춘다.
결과 및 발견
| 벤치마크 | LongSeeker | Tongyi DeepResearch | AgentFold |
|---|---|---|---|
| BrowseComp (EN) | 61.5 % | 43.2 % | 36.2 % |
| BrowseComp‑ZH (CN) | 62.5 % | 46.7 % | 47.3 % |
| 추가 두 벤치마크 (목록에 없음) | 기준 대비 지속적으로 +15‑20 % | – | – |
- 토큰 절감: 평균적으로 LongSeeker는 모든 내용을 보관하는 단순 “keep‑everything” 기준에 비해 컨텍스트 크기를 약 30 % 줄여 추론 비용을 직접 낮춥니다.
- 환각 감소: 증거를 선택적으로 보존하는 Snippet/Compress 방식을 통해 인간 평가에서 사실 오류가 약 40 % 감소합니다.
- 분기 복원력: Rollback 연산자를 사용하면 전체 히스토리를 다시 처리하지 않고도 죽음 지점에서 되돌아갈 수 있어, 시행착오 탐색이 필요한 작업에서 성공률이 향상됩니다.
Practical Implications
- Cost‑effective agents – LLM 기반 어시스턴트(예: 연구 봇, 코드‑검색 도구)를 구축하는 개발자는 Context‑ReAct를 채택하여 토큰 제한 내에서 운영할 수 있어 대형 모델 배포 비용을 절감할 수 있다.
- Improved reliability – 가장 관련성 높은 증거만을 메모리에 보관함으로써 에이전트가 오래되었거나 무관한 사실을 환각할 가능성이 줄어들며, 이는 금융이나 의료와 같이 규제가 많은 분야에서 중요한 요구사항이다.
- Modular integration – 다섯 개 연산자는 API 친화적이며, 기존 툴‑콜 프레임워크(LangChain, LlamaIndex)에서 LLM 호출 루프에 감싸서 사용할 수 있어, 기본 모델을 재학습하지 않고도 메모리를 세밀하게 제어할 수 있다.
- Better multi‑turn UX – 채팅 기반 검색 어시스턴트의 경우, 탄력적인 컨텍스트는 시스템이 이전 대화 흐름을 기억하면서 잡음을 제거하도록 하여 보다 부드럽고 일관된 사용자 경험을 제공한다.
제한 사항 및 향후 작업
- Synthetic training data – 10 k 트래젝터리는 플래너에 의해 생성되며, 실제 사용자 행동의 모든 뉘앙스를 포착하지 못할 수 있습니다; 실제로 노이즈가 많은 인간이 생성한 세션에 대한 성능은 아직 검증되지 않았습니다.
- Operator selection overhead – 적용할 연산을 결정하는 것이 작은 추론 단계를 추가합니다; 이 결정 정책을 매우 긴 세션(>10 k 토큰)으로 확장하면 병목 현상이 될 수 있습니다.
- Generalization across domains – 벤치마크는 웹 검색 및 다국어 작업을 포함하지만, 도메인 특화 파인튜닝 없이 Context‑ReAct가 고도로 구조화된 데이터(예: 코드베이스, 과학 논문) 도메인에 얼마나 잘 전이되는지는 불분명합니다.
- Future directions suggested by the authors include learning the operator policy end‑to‑end with reinforcement learning, extending the framework to multi‑agent collaboration, and exploring hierarchical compression schemes for even deeper context reduction.
저자
- Yijun Lu
- Rui Ye
- Yuwen Du
- Jiajun Wang
- Songhua Liu
- Siheng Chen
논문 정보
- arXiv ID: 2605.05191v1
- 카테고리: cs.AI
- 출판일: 2026년 5월 6일
- PDF: PDF 다운로드