[Paper] SWE-Fuse: 문제 없는 궤적 학습 및 엔트로피 인식 RLVR 훈련을 통한 소프트웨어 에이전트 강화

발행: 2일 전 (2026년 3월 9일 PM 12:47 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.07927v1

Overview

이 논문 SWE‑Fuse는 대형 언어 모델(LLM) 기반 소프트웨어 엔지니어링 에이전트가 흔히 마주치는 장애물을 해결합니다: 실제 현장의 이슈 보고서가 잡음이 많고, 모호하거나, 실제 문제를 해결하는 코드 변경과 전혀 맞지 않는 경우가 많습니다. 에이전트가 오히려 도움이 될 때는 오해를 일으키는 이슈 텍스트를 무시하고, 신뢰할 수 있을 때는 그것에 의존하도록 학습시킴으로써, SWE‑Fuse는 어려운 SWE‑bench Verified 벤치마크에서 자동 버그 수정 성공률을 크게 높입니다.

주요 기여

이슈‑설명‑인식 훈련 프레임워크는 이슈‑가이드와 이슈‑프리 예시를 혼합하여, 모델이 버그 보고서를 신뢰해야 할 때와 순수 코드‑레벨 추론에 의존해야 할 때를 학습하도록 합니다.
이슈‑프리‑구동 트래젝터리 학습 모듈은 이슈 설명에 의존하지 않고 단계별 디버깅 “트래젝터리”를 구성하여, 잡음이 많은 입력의 영향을 감소시킵니다.
엔트로피‑인식 RLVR (값‑기반 정규화 강화 학습) 훈련은 모델의 예측 엔트로피에 따라 클리핑 임계값을 동적으로 조정하여, 불확실한 샘플에서는 탐색을, 확신이 있는 샘플에서는 안정성을 촉진합니다.
최첨단 실증적 향상: 가장 강력한 베이스라인 대비 해결률이 43 % (8B) 및 60 % (32B) 절대적으로 개선되었으며, 테스트‑시 스케일링(TTS)과 결합할 경우 추가적인 향상이 나타납니다.

방법론

Data Fusion – 저자들은 두 개의 학습 데이터 풀에서 시작합니다:
- Issue‑guided 샘플: 원본 버그 보고서(종종 잡음이 많음)를 포함합니다.
- Issue‑free 샘플: 설명을 제거하고 코드 컨텍스트와 올바른 수정만 남깁니다.
Trajectory Learning – Issue‑free 샘플에 대해 중간 디버깅 단계의 시퀀스를 생성합니다(예: “테스트 실행 → 실패한 테스트 찾기 → 스택 트레이스 검사 → 패치 적용”). 모델은 이 트래젝터리를 재현하도록 학습되어, 텍스트 기반 이슈 힌트에 의존하지 않는 절차적 디버깅 사고방식을 습득합니다.
Entropy‑aware RLVR – RL‑스타일 미세조정 중에 손실 클리핑 계수를 모델 출력 엔트로피에 따라 조정합니다:
- 높은 엔트로피 → 느슨한 클리핑 → 에이전트가 다양한 행동을 탐색할 수 있음(이슈 설명이 모호할 때 유용).
- 낮은 엔트로피 → 엄격한 클리핑 → 에이전트의 자신감 있는 예측을 유지하여 불안정한 업데이트를 방지합니다.
Training Loop – 두 모듈을 교차적으로 학습합니다: 모델은 Issue‑free 트래젝터리와 Issue‑guided 예시를 번갈아 학습하며, 전체 과정에 걸쳐 Entropy‑aware RLVR 손실을 적용합니다.
Evaluation – 성능은 실제 GitHub 이슈의 정답 수정이 알려진 SWE‑bench Verified 벤치마크에서 측정합니다. 또한 여러 모델 인스턴스를 실행하고 출력을 집계하는 test‑time scaling (TTS) 래퍼도 테스트합니다.

Source:

결과 및 발견

모델	기본 해결 비율	SWE‑Fuse 해결 비율	Δ (절대값)
8B LLM	~12 %	49.8 % (TTS 사용)	+37.8 %
32B LLM	~15 %	65.2 % (TTS 사용)	+50.2 %

TTS 없이도 SWE‑Fuse만으로도 기존 최고의 8B/32B 기준선보다 각각 43 %, 60 % 더 높은 성능을 보입니다.
엔트로피‑인식 클리핑이 안정성의 주요 원인으로, 고정‑클립 RLVR 기준선에 비해 훈련 변동성이 약 30 % 감소했습니다.
제거 실험 결과, 이슈‑프리 트래젝터리 모듈이나 엔트로피‑인식 구성 요소 중 하나라도 없애면 해결 비율이 15–20 % 감소함을 보여 두 요소가 모두 필수적임을 확인했습니다.

Practical Implications

보다 신뢰할 수 있는 AI 기반 버그 수정기 – 개발자는 SWE‑Fuse로 훈련된 에이전트를 CI 파이프라인에 통합하여 모호한 티켓으로 인한 오탐을 줄일 수 있습니다.
데이터 정제 작업 감소 – 프레임워크가 이슈가 없는 트래젝터리에서 학습하기 때문에 팀이 모든 버그 보고서를 일일이 정리할 필요가 없으며, 모델이 잡음이 섞인 입력을 스스로 교정할 수 있습니다.
대규모 모델에 대한 확장성 – 엔트로피 인식 RLVR 기법은 8B와 32B 모델 모두에서 작동하므로, 기업 환경에서 사용되는 더 큰 LLM에도 적용 가능함을 시사합니다.
테스트 시 스케일링 시너지 – SWE‑Fuse와 경량 앙상블 기법(TTS)을 결합하면 재학습 없이도 최첨단에 근접하는 성능을 얻을 수 있어, 이미 여러 모델 인스턴스를 운영 중인 조직에 실용적인 이점을 제공합니다.

제한 사항 및 향후 연구

고품질 트래젝터리 생성에 대한 의존성 – 이슈가 없는 트래젝터리는 수작업으로 만들거나 기존 패치를 기반으로 도출됩니다; 이를 대규모 코드베이스에 적용하려면 자동 트래젝터리 합성이 필요할 수 있습니다.
벤치마크 범위 – SWE‑bench Verified는 오픈소스 GitHub 이슈에 초점을 맞추고 있습니다; 독점적이거나 도메인 특화된 버그 보고서(예: 임베디드 시스템)에 대한 성능은 아직 테스트되지 않았습니다.
엔트로피 하이퍼파라미터 – 클리핑 스케줄은 수동으로 조정됩니다; 향후 연구에서는 메타러닝이나 작업 전반에 일반화되는 적응형 스케줄을 탐색할 수 있습니다.
다른 모달리티와의 통합 – 프레임워크를 스택 트레이스, 로그, 실행 트레이스 등을 포함하도록 확장하면 잡음이 많은 이슈 텍스트에 대한 견고성을 더욱 향상시킬 수 있습니다.

저자

Xin-Cheng Wen
Binbin Chen
Haoxuan Lan
Hang Yu
Peng Di
Cuiyun Gao

Paper Information

arXiv ID: 2603.07927v1
Categories: cs.SE, cs.AI
Published: 2026년 3월 9일
PDF: PDF 다운로드

[Paper] SWE-Fuse: 문제 없는 궤적 학습 및 엔트로피 인식 RLVR 훈련을 통한 소프트웨어 에이전트 강화

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

Paper Information

관련 글

[Paper] Representation Learning을 활용한 Task Aware Modulation을 통한 Terrestrial Carbon Fluxes의 Upscaling

[Paper] 대형 언어 모델 기반 가이드를 활용한 Virtual Reality를 시각 장애인 및 저시력인에게 접근 가능하게 만드는 방법 이해

[Paper] 거짓말하기 전에 생각하라: 추론이 정직을 향상시키는 방법

[Paper] 행렬 연산자 노름 하에서 신경 최적화기의 폭 스케일링에 관하여 I: 행/열 정규화와 하이퍼파라미터 전이