[Paper] 컨텍스트를 도구로: Long-Horizon SWE-Agents를 위한 컨텍스트 관리

발행: 1개월 전 (2025년 12월 27일 오전 02:15 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.22087v1

개요

대형 언어 모델(LLM) 에이전트는 여러 단계에 걸치고 방대한 코드 저장소를 탐색해야 하는 소프트웨어 엔지니어링(SWE) 작업을 자동화하는 데 점점 더 많이 사용되고 있습니다. 기존 에이전트는 일반적으로 새로운 상호작용을 계속해서 성장하는 “프롬프트”(추가 전용)에 추가하거나, 즉석에서 적용되는 수동 압축 기법에 의존하는데, 이는 곧 컨텍스트 초과, 중요한 의미 손실, 그리고 추론 능력 저하를 초래합니다. 논문 **“Context as a Tool: Context Management for Long‑Horizon SWE‑Agents”**는 CAT라는 새로운 패러다임을 소개합니다. CAT는 컨텍스트 처리를 에이전트가 요약, 정리, 재구성이 필요할 때 언제든 호출할 수 있는 명시적인 도구로 취급합니다. 이를 통해 CAT는 토큰 예산이 제한된 상황에서도 에이전트의 추론을 집중되고, 확장 가능하며, 견고하게 유지합니다.

주요 기여

CAT framework – 세 층으로 구성된 컨텍스트 작업공간(안정적인 작업 의미론, 압축된 장기 메모리, 고충실도 단기 상호작용)을 형식화하고, 에이전트가 필요에 따라 호출할 수 있는 컨텍스트‑관리 도구를 제공합니다.
Trajectory‑level supervision – 전체 상호작용 트레이스에 현실적인 컨텍스트‑관리 행동을 삽입하는 데이터 생성 파이프라인(CAT‑GENERATOR)으로, 컨텍스트 인식 에이전트의 지도 학습을 가능하게 합니다.
SWE‑Compressor model – CAT‑GENERATOR 데이터를 사용해 훈련된 특수화된 LLM으로, 과거 트레이스를 언제, 어떻게 압축해 간결하고 실행 가능한 요약으로 만들지 학습합니다.
Empirical validation – 도전적인 SWE‑Bench‑Verified 벤치마크에서 SWE‑Compressor는 57.6 % 해결률을 달성했으며, 고정 토큰 예산 내에서 ReAct‑스타일 에이전트와 정적 압축 기준을 능가합니다.
Demonstrated stability – 이 접근법은 장기 세션 전반에 걸쳐 일관된 추론 품질을 유지하여 의미 흐트러짐과 컨텍스트 폭증을 완화합니다.

Source: …

Methodology

Structured Context Workspace

Stable Task Semantics: 전체 목표에 대한 변하지 않는 고수준 설명(예: “인증 모듈 리팩터링”).
Condensed Long‑Term Memory: 이전 단계들의 요약을 주기적으로 압축하여 저장.
Short‑Term Interactions: 최신 대화와 코드 조각을 그대로 보관하여 세밀한 추론에 활용.

Context‑Management as a Callable Tool

에이전트는 언제든지 compress_context() 호출을 할 수 있다.
이 도구는 현재 워크스페이스를 받아 어떤 내용을 요약할지 결정하고, 더 작아진 표현을 반환한다.

CAT‑GENERATOR Pipeline

Offline trajectory collection: 기존 SWE 에이전트들의 전체 상호작용 로그를 수집한다.
Annotation of compression points: 논리적 마일스톤(예: 모듈을 완전히 탐색한 뒤)에서 자동으로 “compress” 동작을 삽입한다.
Supervised training data: 각 주석 단계는 압축 전 컨텍스트와 원하는 압축 후 요약을 쌍으로 만든다.

Training SWE‑Compressor

CAT‑GENERATOR 데이터셋을 사용해 기본 LLM(예: Llama‑2‑13B)을 파인튜닝한다.
모델은 언제 압축할지와 어떤 요약을 만들지를, 3‑계층 워크스페이스를 조건으로 학습한다.

Evaluation Protocol

에이전트를 SWE‑Bench‑Verified 작업에 배포하고, 엄격한 토큰 제한(예: 8 k 토큰) 하에서 평가한다.
성공률, 토큰 사용량, 추론 안정성을 ReAct 에이전트(반응형 도구 호출에 의존) 및 정적 압축 휴리스틱(예: 절단, 고정 간격 요약)과 비교한다.

결과 및 발견

지표	CAT‑enabled SWE‑Compressor	ReAct‑based Agent	Static Compression
해결 비율 (✓)	57.6 %	42.3 %	38.9 %
사용된 평균 토큰	7.2 k (within budget)	9.1 k (overrun)	8.5 k
추론 일관성 (감소)	< 2 %	12 %	9 %
압축 오버헤드 (호출당 시간)	0.12 s	N/A	N/A

높은 성공률: 필요할 때만 적극적으로 요약함으로써, 에이전트는 가장 관련성 높은 정보를 유지하고, ReAct 기반 베이스라인보다 15포인트 상승을 달성했습니다.
토큰 효율성: 작업 공간이 사전 설정된 예산 이하로 유지되어, 일반적으로 에이전트가 유용한 히스토리를 잘라내게 만드는 “컨텍스트 폭발”을 방지합니다.
안정성: 장기적인 시계열에서 정확도 저하가 크게 감소했으며, 이는 사전 압축이 의미적 드리프트를 완화한다는 것을 확인시켜 줍니다.

실용적인 시사점

확장 가능한 코드‑Assistants: 개발자는 IDE 플러그인이나 CI 파이프라인에 CAT‑지원 에이전트를 삽입할 수 있으며, 대규모 레포지토리에서 수십 차례의 왕복 편집 후에도 어시스턴트가 응답성을 유지한다는 확신을 가질 수 있다.
비용 효율적인 LLM 사용: 성능을 희생하지 않으면서 토큰 수를 낮게 유지함으로써, 팀은 상용 LLM API(예: OpenAI, Anthropic)의 추론 비용을 절감할 수 있다.
향상된 도구 통합: 컨텍스트 관리가 일급 도구이므로, 이를 다른 에이전트 기능(예: 테스트 생성, 버그 위치 파악)과 결합하여 통합된 의사결정 루프를 구성할 수 있다.
맞춤형 요약: 조직은 도메인 특화 트래젝터리에 SWE‑Compressor를 미세 조정함으로써 압축 정책을 맞춤화할 수 있다(예: 보안에 중요한 코드에 대해 더 공격적으로).
환각 감소: 간결하고 고충실도의 단기 버퍼를 유지하면 모델이 실제 코드에 기반을 두게 되어 잘못된 패치를 생성할 위험이 감소한다.

제한 사항 및 향후 작업

도메인 일반화: 현재 학습 데이터는 오픈‑소스 Python/JavaScript 프로젝트에 초점을 맞추고 있어, 다른 언어 또는 고도로 독점적인 코드베이스에 대한 성능은 아직 테스트되지 않았습니다.
압축 세분성: 모델은 언제 압축할지를 결정하지만, 사용자에게 세밀한 제어(예: “모든 함수 시그니처 유지”)를 제공하지 않습니다.
오프라인 감독 의존성: CAT‑GENERATOR는 주석이 달린 궤적의 방대한 코퍼스를 필요로 하며, 이는 틈새 도메인에 대해 제작 비용이 많이 들 수 있습니다.

향후 방향

여러 에이전트가 공통 컨텍스트 작업 공간을 공유하는 다중 에이전트 협업 시나리오로 CAT를 확장하기.
압축 공격성을 작업 성공과 동적으로 균형 맞추는 강화학습 기반 정책 탐색.
정적 분석 도구를 통합해 압축된 장기 메모리를 의미 그래프로 풍부하게 하여 추론 정확성을 더욱 향상시키기.

저자

Shukai Liu
Jian Yang
Bo Jiang
Yizhi Li
Jinyang Guo
Xianglong Liu
Bryan Dai

논문 정보

arXiv ID: 2512.22087v1
Categories: cs.CL
Published: December 26, 2025
PDF: PDF 다운로드