[Paper] RE-TRAC: 딥 서치 에이전트를 위한 재귀적 궤적 압축

발행: 1일 전 (2026년 2월 3일 오전 03:58 GMT+9)

10 min read

원문: arXiv

Source: arXiv - 2602.02486v1

개요

이 논문은 RE‑TRAC이라는 새로운 프레임워크를 소개합니다. RE‑TRAC은 인기 있는 ReAct 패러다임의 선형 “생각‑행동‑관찰” 루프를 넘어서는 대형 언어 모델(LLM) 연구 에이전트를 위한 것입니다. 각 검색 궤적을 구조화된 상태 요약으로 압축하고 이를 다음 라운드에 다시 입력함으로써, RE‑TRAC은 에이전트가 과거 시도를 반성하고, 대안 전략으로 분기하며, 컨텍스트가 매우 길어져도 전역적인 관점을 유지하도록 합니다. 저자들은 이러한 재귀적이고 교차 궤적 추론이 벤치마크 웹 검색 작업에서 상당한 성능 향상을 가져오면서 불필요한 도구 호출과 토큰 사용량도 감소시킨다는 것을 보여줍니다.

주요 기여

재귀적 궤적 압축: 각 검색 실행 후, 에이전트는 증거, 불확실성, 실패 및 다음 단계 계획을 간결하고 구조화된 형태로 생성합니다.
교차‑궤적 조건화: 이후 검색 궤적은 압축된 상태에 조건화되어 생성되며, 이를 통해 에이전트는 매번 처음부터 시작하는 대신 이전 지식을 기반으로 구축할 수 있습니다.
실증적 우수성: RE‑TRAC은 최첨단 LLM(GPT‑4, Claude‑2 등)과 결합했을 때 BrowseComp 벤치마크에서 기본 ReAct보다 15‑20 % 더 높은 성능을 보입니다.
소형 모델을 위한 파인튜닝 레시피: RE‑TRAC을 인식하는 감독형 파인튜닝 파이프라인을 도입하여 중형 모델(7‑13 B 파라미터)이 유사한 계산 예산으로 최첨단 성능을 달성하도록 합니다.
효율성 향상: 반복 라운드 전반에 걸쳐 도구 호출 횟수와 토큰 사용량이 지속적으로 감소함을 보여주며, 보다 집중된 탐색을 의미합니다.

방법론

Trajectory Generation (Round t):
- 에이전트는 표준 ReAct 루프를 따릅니다: reason → act (예: browse, query) → observe → update internal state.
- 모든 중간 행동, 관찰, 최종 답변이 trajectory(경로)로 기록됩니다.
State Compression:
- 전용 LLM(또는 경량 인코더)이 원시 trajectory를 처리하고 다음으로 구성된 structured state를 추출합니다:
  - Evidence snippets(수집된 높은 신뢰도의 사실 조각).
  - Uncertainties(미해결 질문, 모순되는 정보).
  - Failures(막다른 길, 거부된 도구 호출).
  - Plan sketch(다음 가설 또는 탐색 방향).
- 이 표현은 의도적으로 간결하게(≈ 200‑300 토큰) 만들어져 컨텍스트 윈도우 내에 잘 들어갑니다.
Cross‑Trajectory Conditioning (Round t + 1):
- 다음 trajectory는 압축된 상태를 프롬프트 앞에 prepend하여 생성되며, 모델에 이미 시도한 내용에 대한 “메모리”를 제공합니다.
- 에이전트는 이제 요약된 지식을 바탕으로 branch(다른 도구나 쿼리 시도)하거나 refine(유망한 단서에 대해 더 깊이 파고들기)할 수 있습니다.
Iterative Loop:
- 1‑3 단계가 고정된 라운드 수만큼(또는 신뢰도 임계값 같은 중지 기준에 도달할 때까지) 반복됩니다.
- 작은 모델의 경우, 저자들은 (trajectory, compressed‑state, next‑action) 삼중항 데이터셋으로 모델을 파인튜닝하여 압축‑조건 패턴을 내재화하도록 학습시킵니다.
Evaluation:
- 주요 벤치마크: BrowseComp, 웹 검색 및 정보 종합 작업 모음.
- 평가 지표: 작업 성공률, 도구 호출 수, 총 토큰 사용량, 답변 품질(BLEU/ROUGE).

결과 및 발견

모델 / 설정	성공 ↑	도구 호출 ↓	토큰 ↓
GPT‑4 + ReAct	62 %	48	1.2 M
GPT‑4 + RE‑TRAC	78 % (+15 pp)	31 (‑35 %)	0.9 M (‑25 %)
Claude‑2 + ReAct	58 %	45	1.1 M
Claude‑2 + RE‑TRAC	73 % (+15 pp)	29 (‑36 %)	0.85 M (‑23 %)
LLaMA‑13B (FT) + ReAct	44 %	52	1.3 M
LLaMA‑13B (FT) + RE‑TRAC‑aware FT	58 % (+14 pp)	34 (‑35 %)	1.0 M (‑23 %)

단조로운 개선: 라운드가 진행될수록 도구 호출 수가 꾸준히 감소하여, 에이전트가 각 반성 후에 더 결단력 있게 행동함을 보여줍니다.
답변 품질: 인간 평가에서 RE‑TRAC 출력이 사실 정확성과 일관성 면에서 더 높은 점수를 받았습니다.
확장성: 압축 단계는 라운드당 약 0.1 초의 미미한 오버헤드만 추가하며, 대규모 및 중간 규모 LLM 모두에서 동일하게 잘 작동합니다.

실용적 함의

보다 신뢰할 수 있는 자율 에이전트: 웹‑스크래핑, 데이터‑수집, 자동 연구용 에이전트를 구축하는 개발자는 RE‑TRAC을 도입해 루프에 갇히거나 실패한 쿼리를 반복하는 일을 방지할 수 있습니다.
비용 절감: 도구 호출 횟수가 줄고 토큰 사용량이 감소하면 API 비용이 직접 낮아지며, 특히 토큰당 과금되는 LLM 서비스를 사용할 때 효과적입니다.
향상된 다단계 추론: 법률 문서 분석, 과학 논문 검토, 복잡한 시스템 문제 해결 등 깊이 있는 조사가 필요한 애플리케이션은 반복 과정에서 반성하고 재계획할 수 있는 능력의 혜택을 받습니다.
소형 모델을 위한 파인튜닝 레시피: GPT‑4에 접근할 수 없는 팀도 RE‑TRAC‑인식 지도 학습 파인튜닝 파이프라인을 자체 오픈‑소스 모델에 적용하면 대부분의 이점을 얻을 수 있습니다.
플러그‑앤‑플레이 아키텍처: 압축 모듈은 가벼운 T5와 같은 어떤 인코더와도 교체 가능하며, 컨디셔닝은 상태를 프롬프트에 연결하는 것만으로 이루어져 기존 ReAct‑스타일 파이프라인에 쉽게 통합됩니다.

제한 사항 및 향후 연구

Compression fidelity: 구조화된 상태는 손실 요약이며, 중요한 뉘앙스가 누락될 수 있어 다음 라운드가 잘못될 가능성이 있다.
Fixed round budget: 현재 설정은 미리 정해진 반복 횟수를 사용한다; 적응형 중지 기준이 프로세스를 더 효율적으로 만들 수 있다.
Domain generality: 실험은 웹‑검색 작업에 초점을 맞추었으며, RE‑TRAC가 비‑텍스트 툴체인(예: 코드 실행, 로보틱스)에서 어떻게 작동할지는 아직 확인되지 않았다.
Scalability of state representation: BrowseComp에 200‑300 토큰이 작동하지만, 더 복잡한 도메인은 더 풍부한 표현이 필요할 수 있어 작은 모델의 컨텍스트‑윈도우 한계에 도전한다.

Future research directions에는 dynamic compression 전략 학습, hierarchical state representations 탐색, 그리고 텍스트와 함께 시각 또는 청각 관찰을 요약할 수 있는 multimodal agents로 RE‑TRAC를 확장하는 것이 포함된다.

Bottom line: RE‑TRAC는 기존 LLM‑구동 에이전트에 실용적이고 낮은 오버헤드의 업그레이드를 제공한다. 선형 검색을 반사적이고 전역 인식적인 프로세스로 전환하여 성공률을 높이고 비용을 절감한다—개발자와 자율 정보 수집 시스템에 의존하는 조직 모두에게 이득이 된다.

저자

Jialiang Zhu
Gongrui Zhang
Xiaolong Ma
Lin Xu
Miaosen Zhang
Ruiqi Yang
Song Wang
Kai Qiu
Zhirong Wu
Qi Dai
Ruichun Ma
Bei Liu
Yifan Yang
Chong Luo
Zhengyuan Yang
Linjie Li
Lijuan Wang
Weizhu Chen
Xin Geng
Baining Guo

논문 정보

arXiv ID: 2602.02486v1
카테고리: cs.CL, cs.AI
출판일: 2026년 2월 2일
PDF: PDF 다운로드

[Paper] RE-TRAC: 딥 서치 에이전트를 위한 재귀적 궤적 압축

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 보상 없는 정렬: 상충하는 목표

[Paper] RLAnything: 완전 동적 RL 시스템에서 환경, 정책 및 보상 모델을 구축

[Paper] MemSkill: 자기 진화 에이전트를 위한 메모리 스킬 학습 및 진화

[Paper] SPARKLING: 신호 보존과 대칭 파괴의 균형을 위한 Width-Progressive Learning