[Paper] SWE-Fuse: 문제 없는 궤적 학습 및 엔트로피 인식 RLVR 훈련을 통한 소프트웨어 에이전트 강화
Source: arXiv - 2603.07927v1
Overview
이 논문 SWE‑Fuse는 대형 언어 모델(LLM) 기반 소프트웨어 엔지니어링 에이전트가 흔히 마주치는 장애물을 해결합니다: 실제 현장의 이슈 보고서가 잡음이 많고, 모호하거나, 실제 문제를 해결하는 코드 변경과 전혀 맞지 않는 경우가 많습니다. 에이전트가 오히려 도움이 될 때는 오해를 일으키는 이슈 텍스트를 무시하고, 신뢰할 수 있을 때는 그것에 의존하도록 학습시킴으로써, SWE‑Fuse는 어려운 SWE‑bench Verified 벤치마크에서 자동 버그 수정 성공률을 크게 높입니다.
주요 기여
- 이슈‑설명‑인식 훈련 프레임워크는 이슈‑가이드와 이슈‑프리 예시를 혼합하여, 모델이 버그 보고서를 신뢰해야 할 때와 순수 코드‑레벨 추론에 의존해야 할 때를 학습하도록 합니다.
- 이슈‑프리‑구동 트래젝터리 학습 모듈은 이슈 설명에 의존하지 않고 단계별 디버깅 “트래젝터리”를 구성하여, 잡음이 많은 입력의 영향을 감소시킵니다.
- 엔트로피‑인식 RLVR (값‑기반 정규화 강화 학습) 훈련은 모델의 예측 엔트로피에 따라 클리핑 임계값을 동적으로 조정하여, 불확실한 샘플에서는 탐색을, 확신이 있는 샘플에서는 안정성을 촉진합니다.
- 최첨단 실증적 향상: 가장 강력한 베이스라인 대비 해결률이 43 % (8B) 및 60 % (32B) 절대적으로 개선되었으며, 테스트‑시 스케일링(TTS)과 결합할 경우 추가적인 향상이 나타납니다.
방법론
-
Data Fusion – 저자들은 두 개의 학습 데이터 풀에서 시작합니다:
- Issue‑guided 샘플: 원본 버그 보고서(종종 잡음이 많음)를 포함합니다.
- Issue‑free 샘플: 설명을 제거하고 코드 컨텍스트와 올바른 수정만 남깁니다.
-
Trajectory Learning – Issue‑free 샘플에 대해 중간 디버깅 단계의 시퀀스를 생성합니다(예: “테스트 실행 → 실패한 테스트 찾기 → 스택 트레이스 검사 → 패치 적용”). 모델은 이 트래젝터리를 재현하도록 학습되어, 텍스트 기반 이슈 힌트에 의존하지 않는 절차적 디버깅 사고방식을 습득합니다.
-
Entropy‑aware RLVR – RL‑스타일 미세조정 중에 손실 클리핑 계수를 모델 출력 엔트로피에 따라 조정합니다:
- 높은 엔트로피 → 느슨한 클리핑 → 에이전트가 다양한 행동을 탐색할 수 있음(이슈 설명이 모호할 때 유용).
- 낮은 엔트로피 → 엄격한 클리핑 → 에이전트의 자신감 있는 예측을 유지하여 불안정한 업데이트를 방지합니다.
-
Training Loop – 두 모듈을 교차적으로 학습합니다: 모델은 Issue‑free 트래젝터리와 Issue‑guided 예시를 번갈아 학습하며, 전체 과정에 걸쳐 Entropy‑aware RLVR 손실을 적용합니다.
-
Evaluation – 성능은 실제 GitHub 이슈의 정답 수정이 알려진 SWE‑bench Verified 벤치마크에서 측정합니다. 또한 여러 모델 인스턴스를 실행하고 출력을 집계하는 test‑time scaling (TTS) 래퍼도 테스트합니다.
Source:
결과 및 발견
| 모델 | 기본 해결 비율 | SWE‑Fuse 해결 비율 | Δ (절대값) |
|---|---|---|---|
| 8B LLM | ~12 % | 49.8 % (TTS 사용) | +37.8 % |
| 32B LLM | ~15 % | 65.2 % (TTS 사용) | +50.2 % |
- TTS 없이도 SWE‑Fuse만으로도 기존 최고의 8B/32B 기준선보다 각각 43 %, 60 % 더 높은 성능을 보입니다.
- 엔트로피‑인식 클리핑이 안정성의 주요 원인으로, 고정‑클립 RLVR 기준선에 비해 훈련 변동성이 약 30 % 감소했습니다.
- 제거 실험 결과, 이슈‑프리 트래젝터리 모듈이나 엔트로피‑인식 구성 요소 중 하나라도 없애면 해결 비율이 15–20 % 감소함을 보여 두 요소가 모두 필수적임을 확인했습니다.
Practical Implications
- 보다 신뢰할 수 있는 AI 기반 버그 수정기 – 개발자는 SWE‑Fuse로 훈련된 에이전트를 CI 파이프라인에 통합하여 모호한 티켓으로 인한 오탐을 줄일 수 있습니다.
- 데이터 정제 작업 감소 – 프레임워크가 이슈가 없는 트래젝터리에서 학습하기 때문에 팀이 모든 버그 보고서를 일일이 정리할 필요가 없으며, 모델이 잡음이 섞인 입력을 스스로 교정할 수 있습니다.
- 대규모 모델에 대한 확장성 – 엔트로피 인식 RLVR 기법은 8B와 32B 모델 모두에서 작동하므로, 기업 환경에서 사용되는 더 큰 LLM에도 적용 가능함을 시사합니다.
- 테스트 시 스케일링 시너지 – SWE‑Fuse와 경량 앙상블 기법(TTS)을 결합하면 재학습 없이도 최첨단에 근접하는 성능을 얻을 수 있어, 이미 여러 모델 인스턴스를 운영 중인 조직에 실용적인 이점을 제공합니다.
제한 사항 및 향후 연구
- 고품질 트래젝터리 생성에 대한 의존성 – 이슈가 없는 트래젝터리는 수작업으로 만들거나 기존 패치를 기반으로 도출됩니다; 이를 대규모 코드베이스에 적용하려면 자동 트래젝터리 합성이 필요할 수 있습니다.
- 벤치마크 범위 – SWE‑bench Verified는 오픈소스 GitHub 이슈에 초점을 맞추고 있습니다; 독점적이거나 도메인 특화된 버그 보고서(예: 임베디드 시스템)에 대한 성능은 아직 테스트되지 않았습니다.
- 엔트로피 하이퍼파라미터 – 클리핑 스케줄은 수동으로 조정됩니다; 향후 연구에서는 메타러닝이나 작업 전반에 일반화되는 적응형 스케줄을 탐색할 수 있습니다.
- 다른 모달리티와의 통합 – 프레임워크를 스택 트레이스, 로그, 실행 트레이스 등을 포함하도록 확장하면 잡음이 많은 이슈 텍스트에 대한 견고성을 더욱 향상시킬 수 있습니다.
저자
- Xin-Cheng Wen
- Binbin Chen
- Haoxuan Lan
- Hang Yu
- Peng Di
- Cuiyun Gao
Paper Information
- arXiv ID: 2603.07927v1
- Categories: cs.SE, cs.AI
- Published: 2026년 3월 9일
- PDF: PDF 다운로드