[Paper] 컨텍스트를 도구로: Long-Horizon SWE-Agents를 위한 컨텍스트 관리
Source: arXiv - 2512.22087v1
개요
대형 언어 모델(LLM) 에이전트는 여러 단계에 걸치고 방대한 코드 저장소를 탐색해야 하는 소프트웨어 엔지니어링(SWE) 작업을 자동화하는 데 점점 더 많이 사용되고 있습니다. 기존 에이전트는 일반적으로 새로운 상호작용을 계속해서 성장하는 “프롬프트”(추가 전용)에 추가하거나, 즉석에서 적용되는 수동 압축 기법에 의존하는데, 이는 곧 컨텍스트 초과, 중요한 의미 손실, 그리고 추론 능력 저하를 초래합니다. 논문 **“Context as a Tool: Context Management for Long‑Horizon SWE‑Agents”**는 CAT라는 새로운 패러다임을 소개합니다. CAT는 컨텍스트 처리를 에이전트가 요약, 정리, 재구성이 필요할 때 언제든 호출할 수 있는 명시적인 도구로 취급합니다. 이를 통해 CAT는 토큰 예산이 제한된 상황에서도 에이전트의 추론을 집중되고, 확장 가능하며, 견고하게 유지합니다.
주요 기여
- CAT framework – 세 층으로 구성된 컨텍스트 작업공간(안정적인 작업 의미론, 압축된 장기 메모리, 고충실도 단기 상호작용)을 형식화하고, 에이전트가 필요에 따라 호출할 수 있는 컨텍스트‑관리 도구를 제공합니다.
- Trajectory‑level supervision – 전체 상호작용 트레이스에 현실적인 컨텍스트‑관리 행동을 삽입하는 데이터 생성 파이프라인(CAT‑GENERATOR)으로, 컨텍스트 인식 에이전트의 지도 학습을 가능하게 합니다.
- SWE‑Compressor model – CAT‑GENERATOR 데이터를 사용해 훈련된 특수화된 LLM으로, 과거 트레이스를 언제, 어떻게 압축해 간결하고 실행 가능한 요약으로 만들지 학습합니다.
- Empirical validation – 도전적인 SWE‑Bench‑Verified 벤치마크에서 SWE‑Compressor는 57.6 % 해결률을 달성했으며, 고정 토큰 예산 내에서 ReAct‑스타일 에이전트와 정적 압축 기준을 능가합니다.
- Demonstrated stability – 이 접근법은 장기 세션 전반에 걸쳐 일관된 추론 품질을 유지하여 의미 흐트러짐과 컨텍스트 폭증을 완화합니다.
Source: …
Methodology
Structured Context Workspace
- Stable Task Semantics: 전체 목표에 대한 변하지 않는 고수준 설명(예: “인증 모듈 리팩터링”).
- Condensed Long‑Term Memory: 이전 단계들의 요약을 주기적으로 압축하여 저장.
- Short‑Term Interactions: 최신 대화와 코드 조각을 그대로 보관하여 세밀한 추론에 활용.
Context‑Management as a Callable Tool
- 에이전트는 언제든지
compress_context()호출을 할 수 있다. - 이 도구는 현재 워크스페이스를 받아 어떤 내용을 요약할지 결정하고, 더 작아진 표현을 반환한다.
CAT‑GENERATOR Pipeline
- Offline trajectory collection: 기존 SWE 에이전트들의 전체 상호작용 로그를 수집한다.
- Annotation of compression points: 논리적 마일스톤(예: 모듈을 완전히 탐색한 뒤)에서 자동으로 “compress” 동작을 삽입한다.
- Supervised training data: 각 주석 단계는 압축 전 컨텍스트와 원하는 압축 후 요약을 쌍으로 만든다.
Training SWE‑Compressor
- CAT‑GENERATOR 데이터셋을 사용해 기본 LLM(예: Llama‑2‑13B)을 파인튜닝한다.
- 모델은 언제 압축할지와 어떤 요약을 만들지를, 3‑계층 워크스페이스를 조건으로 학습한다.
Evaluation Protocol
- 에이전트를 SWE‑Bench‑Verified 작업에 배포하고, 엄격한 토큰 제한(예: 8 k 토큰) 하에서 평가한다.
- 성공률, 토큰 사용량, 추론 안정성을 ReAct 에이전트(반응형 도구 호출에 의존) 및 정적 압축 휴리스틱(예: 절단, 고정 간격 요약)과 비교한다.
결과 및 발견
| 지표 | CAT‑enabled SWE‑Compressor | ReAct‑based Agent | Static Compression |
|---|---|---|---|
| 해결 비율 (✓) | 57.6 % | 42.3 % | 38.9 % |
| 사용된 평균 토큰 | 7.2 k (within budget) | 9.1 k (overrun) | 8.5 k |
| 추론 일관성 (감소) | < 2 % | 12 % | 9 % |
| 압축 오버헤드 (호출당 시간) | 0.12 s | N/A | N/A |
- 높은 성공률: 필요할 때만 적극적으로 요약함으로써, 에이전트는 가장 관련성 높은 정보를 유지하고, ReAct 기반 베이스라인보다 15포인트 상승을 달성했습니다.
- 토큰 효율성: 작업 공간이 사전 설정된 예산 이하로 유지되어, 일반적으로 에이전트가 유용한 히스토리를 잘라내게 만드는 “컨텍스트 폭발”을 방지합니다.
- 안정성: 장기적인 시계열에서 정확도 저하가 크게 감소했으며, 이는 사전 압축이 의미적 드리프트를 완화한다는 것을 확인시켜 줍니다.
실용적인 시사점
- 확장 가능한 코드‑Assistants: 개발자는 IDE 플러그인이나 CI 파이프라인에 CAT‑지원 에이전트를 삽입할 수 있으며, 대규모 레포지토리에서 수십 차례의 왕복 편집 후에도 어시스턴트가 응답성을 유지한다는 확신을 가질 수 있다.
- 비용 효율적인 LLM 사용: 성능을 희생하지 않으면서 토큰 수를 낮게 유지함으로써, 팀은 상용 LLM API(예: OpenAI, Anthropic)의 추론 비용을 절감할 수 있다.
- 향상된 도구 통합: 컨텍스트 관리가 일급 도구이므로, 이를 다른 에이전트 기능(예: 테스트 생성, 버그 위치 파악)과 결합하여 통합된 의사결정 루프를 구성할 수 있다.
- 맞춤형 요약: 조직은 도메인 특화 트래젝터리에 SWE‑Compressor를 미세 조정함으로써 압축 정책을 맞춤화할 수 있다(예: 보안에 중요한 코드에 대해 더 공격적으로).
- 환각 감소: 간결하고 고충실도의 단기 버퍼를 유지하면 모델이 실제 코드에 기반을 두게 되어 잘못된 패치를 생성할 위험이 감소한다.
제한 사항 및 향후 작업
- 도메인 일반화: 현재 학습 데이터는 오픈‑소스 Python/JavaScript 프로젝트에 초점을 맞추고 있어, 다른 언어 또는 고도로 독점적인 코드베이스에 대한 성능은 아직 테스트되지 않았습니다.
- 압축 세분성: 모델은 언제 압축할지를 결정하지만, 사용자에게 세밀한 제어(예: “모든 함수 시그니처 유지”)를 제공하지 않습니다.
- 오프라인 감독 의존성: CAT‑GENERATOR는 주석이 달린 궤적의 방대한 코퍼스를 필요로 하며, 이는 틈새 도메인에 대해 제작 비용이 많이 들 수 있습니다.
향후 방향
- 여러 에이전트가 공통 컨텍스트 작업 공간을 공유하는 다중 에이전트 협업 시나리오로 CAT를 확장하기.
- 압축 공격성을 작업 성공과 동적으로 균형 맞추는 강화학습 기반 정책 탐색.
- 정적 분석 도구를 통합해 압축된 장기 메모리를 의미 그래프로 풍부하게 하여 추론 정확성을 더욱 향상시키기.
저자
- Shukai Liu
- Jian Yang
- Bo Jiang
- Yizhi Li
- Jinyang Guo
- Xianglong Liu
- Bryan Dai
논문 정보
- arXiv ID: 2512.22087v1
- Categories: cs.CL
- Published: December 26, 2025
- PDF: PDF 다운로드