[Paper] SWE-Fuse: 문제 없는 궤적 학습 및 엔트로피 인식 RLVR 훈련을 통한 소프트웨어 에이전트 강화

발행: (2026년 3월 9일 PM 12:47 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.07927v1

Overview

이 논문 SWE‑Fuse는 대형 언어 모델(LLM) 기반 소프트웨어 엔지니어링 에이전트가 흔히 마주치는 장애물을 해결합니다: 실제 현장의 이슈 보고서가 잡음이 많고, 모호하거나, 실제 문제를 해결하는 코드 변경과 전혀 맞지 않는 경우가 많습니다. 에이전트가 오히려 도움이 될 때는 오해를 일으키는 이슈 텍스트를 무시하고, 신뢰할 수 있을 때는 그것에 의존하도록 학습시킴으로써, SWE‑Fuse는 어려운 SWE‑bench Verified 벤치마크에서 자동 버그 수정 성공률을 크게 높입니다.

주요 기여

  • 이슈‑설명‑인식 훈련 프레임워크이슈‑가이드이슈‑프리 예시를 혼합하여, 모델이 버그 보고서를 신뢰해야 할 때와 순수 코드‑레벨 추론에 의존해야 할 때를 학습하도록 합니다.
  • 이슈‑프리‑구동 트래젝터리 학습 모듈은 이슈 설명에 의존하지 않고 단계별 디버깅 “트래젝터리”를 구성하여, 잡음이 많은 입력의 영향을 감소시킵니다.
  • 엔트로피‑인식 RLVR (값‑기반 정규화 강화 학습) 훈련은 모델의 예측 엔트로피에 따라 클리핑 임계값을 동적으로 조정하여, 불확실한 샘플에서는 탐색을, 확신이 있는 샘플에서는 안정성을 촉진합니다.
  • 최첨단 실증적 향상: 가장 강력한 베이스라인 대비 해결률이 43 % (8B) 및 60 % (32B) 절대적으로 개선되었으며, 테스트‑시 스케일링(TTS)과 결합할 경우 추가적인 향상이 나타납니다.

방법론

  1. Data Fusion – 저자들은 두 개의 학습 데이터 풀에서 시작합니다:

    • Issue‑guided 샘플: 원본 버그 보고서(종종 잡음이 많음)를 포함합니다.
    • Issue‑free 샘플: 설명을 제거하고 코드 컨텍스트와 올바른 수정만 남깁니다.
  2. Trajectory Learning – Issue‑free 샘플에 대해 중간 디버깅 단계의 시퀀스를 생성합니다(예: “테스트 실행 → 실패한 테스트 찾기 → 스택 트레이스 검사 → 패치 적용”). 모델은 이 트래젝터리를 재현하도록 학습되어, 텍스트 기반 이슈 힌트에 의존하지 않는 절차적 디버깅 사고방식을 습득합니다.

  3. Entropy‑aware RLVR – RL‑스타일 미세조정 중에 손실 클리핑 계수를 모델 출력 엔트로피에 따라 조정합니다:

    • 높은 엔트로피 → 느슨한 클리핑 → 에이전트가 다양한 행동을 탐색할 수 있음(이슈 설명이 모호할 때 유용).
    • 낮은 엔트로피 → 엄격한 클리핑 → 에이전트의 자신감 있는 예측을 유지하여 불안정한 업데이트를 방지합니다.
  4. Training Loop – 두 모듈을 교차적으로 학습합니다: 모델은 Issue‑free 트래젝터리와 Issue‑guided 예시를 번갈아 학습하며, 전체 과정에 걸쳐 Entropy‑aware RLVR 손실을 적용합니다.

  5. Evaluation – 성능은 실제 GitHub 이슈의 정답 수정이 알려진 SWE‑bench Verified 벤치마크에서 측정합니다. 또한 여러 모델 인스턴스를 실행하고 출력을 집계하는 test‑time scaling (TTS) 래퍼도 테스트합니다.

Source:

결과 및 발견

모델기본 해결 비율SWE‑Fuse 해결 비율Δ (절대값)
8B LLM~12 %49.8 % (TTS 사용)+37.8 %
32B LLM~15 %65.2 % (TTS 사용)+50.2 %
  • TTS 없이도 SWE‑Fuse만으로도 기존 최고의 8B/32B 기준선보다 각각 43 %, 60 % 더 높은 성능을 보입니다.
  • 엔트로피‑인식 클리핑이 안정성의 주요 원인으로, 고정‑클립 RLVR 기준선에 비해 훈련 변동성이 약 30 % 감소했습니다.
  • 제거 실험 결과, 이슈‑프리 트래젝터리 모듈이나 엔트로피‑인식 구성 요소 중 하나라도 없애면 해결 비율이 15–20 % 감소함을 보여 두 요소가 모두 필수적임을 확인했습니다.

Practical Implications

  • 보다 신뢰할 수 있는 AI 기반 버그 수정기 – 개발자는 SWE‑Fuse로 훈련된 에이전트를 CI 파이프라인에 통합하여 모호한 티켓으로 인한 오탐을 줄일 수 있습니다.
  • 데이터 정제 작업 감소 – 프레임워크가 이슈가 없는 트래젝터리에서 학습하기 때문에 팀이 모든 버그 보고서를 일일이 정리할 필요가 없으며, 모델이 잡음이 섞인 입력을 스스로 교정할 수 있습니다.
  • 대규모 모델에 대한 확장성 – 엔트로피 인식 RLVR 기법은 8B와 32B 모델 모두에서 작동하므로, 기업 환경에서 사용되는 더 큰 LLM에도 적용 가능함을 시사합니다.
  • 테스트 시 스케일링 시너지 – SWE‑Fuse와 경량 앙상블 기법(TTS)을 결합하면 재학습 없이도 최첨단에 근접하는 성능을 얻을 수 있어, 이미 여러 모델 인스턴스를 운영 중인 조직에 실용적인 이점을 제공합니다.

제한 사항 및 향후 연구

  • 고품질 트래젝터리 생성에 대한 의존성 – 이슈가 없는 트래젝터리는 수작업으로 만들거나 기존 패치를 기반으로 도출됩니다; 이를 대규모 코드베이스에 적용하려면 자동 트래젝터리 합성이 필요할 수 있습니다.
  • 벤치마크 범위 – SWE‑bench Verified는 오픈소스 GitHub 이슈에 초점을 맞추고 있습니다; 독점적이거나 도메인 특화된 버그 보고서(예: 임베디드 시스템)에 대한 성능은 아직 테스트되지 않았습니다.
  • 엔트로피 하이퍼파라미터 – 클리핑 스케줄은 수동으로 조정됩니다; 향후 연구에서는 메타러닝이나 작업 전반에 일반화되는 적응형 스케줄을 탐색할 수 있습니다.
  • 다른 모달리티와의 통합 – 프레임워크를 스택 트레이스, 로그, 실행 트레이스 등을 포함하도록 확장하면 잡음이 많은 이슈 텍스트에 대한 견고성을 더욱 향상시킬 수 있습니다.

저자

  • Xin-Cheng Wen
  • Binbin Chen
  • Haoxuan Lan
  • Hang Yu
  • Peng Di
  • Cuiyun Gao

Paper Information

  • arXiv ID: 2603.07927v1
  • Categories: cs.SE, cs.AI
  • Published: 2026년 3월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »