[Paper] KLong: 극도로 긴‑시간 지평 작업을 위한 LLM 에이전트 훈련
Source: arXiv - 2602.17547v1
개요
The paper presents KLong, an open‑source large language model (LLM) agent designed to tackle 극도로 long‑horizon tasks—think multi‑step research projects or complex software development pipelines that can span thousands of tokens. By combining a novel trajectory‑splitting supervised fine‑tuning (SFT) stage with a progressive reinforcement‑learning (RL) schedule, the authors achieve performance that rivals (and in some cases exceeds) much larger commercial models.
주요 기여
- Cold‑start recipe: 장기 학습 이전에 기본 LLM의 기본적인 “에이전시” 능력을 깨우는 포괄적인 SFT 파이프라인.
- Research‑Factory pipeline: 연구 논문을 스크래핑하고 평가 루브릭을 구축하며 Claude 4.5 Sonnet (Thinking)에서 추출한 고품질 장기 궤적 예시를 생성하는 자동 데이터 생성 시스템.
- Trajectory‑splitting SFT: 초기 컨텍스트를 유지하면서 후반 컨텍스트와 겹치는 서브 궤적을 점진적으로 잘라내어 초장 시퀀스에 대한 안정적인 파인튜닝을 가능하게 하는 방법.
- Progressive RL scheduler: 허용된 “타임아웃”(즉, 추론 단계 수)을 점진적으로 확장하여 모델이 붕괴 없이 더 멀리 계획하는 것을 학습하도록 하는 다단계 RL 체제.
- Empirical dominance: KLong‑106B는 1조 파라미터 Kimi K2 Thinking을 PaperBench에서 +11.28 % 능가하며 SWE‑bench Verified와 MLE‑bench와 같은 코딩 스위트에서도 일관된 향상을 보인다.
방법론
- Cold‑start SFT – 기본 모델(≈106 B 파라미터)을 먼저 다양한 단기~중기 작업(질문 답변, 코드 생성, 계획 수립)에서 미세조정하여 도구 사용, 자기 반성, 지시 수행에 대한 탄탄한 기반을 마련한다.
- Data generation with Research‑Factory
- 방대한 연구 논문 코퍼스를 크롤링한다.
- task rubric (목표, 성공 기준, 중간 마일스톤)을 자동으로 추출한다.
- Claude 4.5 Sonnet을 사용해 수만 토큰에 달할 수 있는 단계별 솔루션 궤적을 생성한다.
- Trajectory‑splitting SFT
- 초장기 궤적을 겹치는 윈도우로 분할한다.
- 초기 윈도우는 전체 선행 컨텍스트를 유지하고, 이후 윈도우는 오래된 토큰을 점진적으로 삭제해 관련 히스토리만 “슬라이딩‑윈도우” 형태로 유지한다.
- 모든 윈도우를 동시에 학습시켜 GPU 메모리 한계에 걸리지 않으면서 장기 일관성을 유지하도록 모델을 훈련한다.
- Progressive RL
- Stage 1: 짧은 타임아웃(예: 256 토큰)으로 RL을 수행해 기본 계획 수립을 강화한다.
- Stage 2‑N: 타임아웃을 점진적으로 늘린다(512 → 1024 → 2048 …)하여 정책이 더 긴 시간 범위에 걸쳐 자원을 할당하는 방법을 학습한다.
- 보상 함수는 rubric 기반 과제 완수, 도구 사용 효율성, 자기 비판 점수를 혼합한다.
결과 및 발견
| Benchmark | KLong‑106B | Kimi K2 Thinking (1T) | Relative Δ |
|---|---|---|---|
| PaperBench (research‑task suite) | +11.28 % | Baseline | +11.28 % |
| SWE‑bench Verified (software engineering) | +6.4 % | – | +6.4 % |
| MLE‑bench (machine‑learning engineering) | +5.9 % | – | +5.9 % |
- 일반화: 평가 작업이 훈련 분포와 달라도(예: 코딩 vs. 연구) 성능 향상이 지속됩니다.
- 안정성: 트래젝터리 분할 SFT는 매우 긴 시퀀스에 대해 파인튜닝할 때 흔히 발생하는 초기 컨텍스트의 파국적 망각을 방지합니다.
- 효율성: KLong은 106 B 모델로 이러한 결과를 달성했으며, 이는 경쟁 모델인 1 T 모델 파라미터의 약 1/10에 해당해 계산 대비 성능 비율이 우수함을 보여줍니다.
실용적 함의
- Research assistants: 개발자는 KLong을 문헌 검토 파이프라인에 삽입하여 구조화된 연구 계획, 실험 설계, 그리고 논문 초안 섹션을 자동으로 생성할 수 있습니다.
- Long‑running code generation: 복잡한 소프트웨어 프로젝트(예: 다중 모듈 시스템, 데이터 파이프라인)에서 KLong은 수백 개 파일에 걸친 컨텍스트를 유지하여 수동 프롬프트 엔지니어링이나 조각별 스티칭의 필요성을 줄여줍니다.
- Tool‑augmented agents: KLong이 외부 도구(검색 API, 코드 인터프리터)를 장기적으로 호출하도록 학습하기 때문에 DevOps, CI/CD 자동화, 클라우드 자원 프로비저닝 등에서 보다 신뢰할 수 있는 자율 에이전트의 백본 역할을 할 수 있습니다.
- Open‑source accessibility: 공개된 코드와 데이터 파이프라인을 통해 팀은 자체 하드웨어에서 학습 레시피를 재현할 수 있어, 트릴리언 파라미터 API에 비용을 지불하지 않고도 도메인‑특화 장기‑수평 에이전트를 맞춤형으로 구축할 수 있습니다.
제한 사항 및 향후 작업
- 데이터 편향: 훈련 궤적은 Claude 4.5 Sonnet에서 추출되었으므로 해당 모델에 존재하는 체계적인 편향이나 환상이 KLong에 전파될 수 있습니다.
- 메모리 제한: 궤적 분할이 GPU 한계를 완화하지만, 106 B 모델을 훈련하려면 여전히 고성능 하드웨어(다중 A100/H100 GPU)가 필요합니다.
- 평가 범위: 벤치마크는 연구 및 코딩 작업에 초점을 맞추고 있으며, 법률 추론이나 과학 시뮬레이션과 같은 실제 도메인에서의 배포는 아직 검증되지 않았습니다.
- 향후 방향: 저자들이 제안한 내용으로는 Research‑Factory를 논문 외 분야(예: 디자인 문서)로 확장하고, 더 긴 컨텍스트를 위한 검색 기반 생성(retrieval‑augmented generation)을 통합하며, 고정된 일정이 아닌 작업 난이도에 따라 RL 타임아웃을 조정하는 커리큘럼 학습 전략을 탐구하는 것이 포함됩니다.
저자
- Yue Liu
- Zhiyuan Hu
- Flood Sung
- Jiaheng Zhang
- Bryan Hooi
논문 정보
- arXiv ID: 2602.17547v1
- 카테고리: cs.AI, cs.CL
- 출판일: 2026년 2월 19일
- PDF: PDF 다운로드