[Paper] GitHub 우주에 몰입: 코딩 에이전트 스케일링을 통한 마스터리

발행: (2026년 2월 11일 오전 12:30 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.09892v1

Overview

이 논문은 ScaleSWE를 소개합니다. ScaleSWE는 완전 자동화된 샌드박스형 멀티‑에이전트 파이프라인으로, 실제 소프트웨어 엔지니어링(SWE) 데이터를 대규모로 수집하고 정제할 수 있습니다. 환경 설정, 테스트 생성, 문제 진술 합성이라는 세 가지 특화된 에이전트를 조정하여 저자들은 5,200개의 GitHub 저장소에서 600만 개의 풀 리퀘스트를 처리했으며, 그 결과 100 k 검증된 SWE 인스턴스라는 공개 데이터셋을 만들었습니다. 이는 현재까지 가장 큰 규모의 데이터셋입니다. 또한 저자들은 이 데이터를 활용해 대형 언어 모델(LLM)을 고성능 코딩 어시스턴트로 미세 조정할 수 있음을 보여줍니다.

주요 기여

  • ScaleSWE 파이프라인: 원시 풀‑리퀘스트 기록에서 자동으로 엔드‑투‑엔드 코딩 작업(환경, 테스트, 설명)을 구축하는 재현 가능한 다중‑에이전트 워크플로우.
  • ScaleSWE 데이터: 다양한 언어, 라이브러리, 프로젝트 규모를 포괄하는 100 k개의 고품질 검증된 소프트웨어 엔지니어링 사례로, 양과 현실성 모두에서 기존 벤치마크를 크게 능가합니다.
  • 에이전트 기반 데이터 생성: 목적에 맞게 설계된 세 개의 에이전트가 인간 개입 없이도 올바른 테스트 스위트와 일관된 문제 설명을 신뢰성 있게 생성할 수 있음을 보여줍니다.
  • 모델 파인튜닝: 71 498개의 성공적인 실행 궤적을 추출하고 Qwen‑30B‑BA3B‑Instruct 모델을 파인튜닝하여 ScaleSWE 에이전트를 생성합니다. 이 에이전트는 SWE‑Bench Verified 벤치마크에서 64 %의 작업을 해결하며(기본 모델 대비 약 3배 향상).
  • 오픈소스 공개: 데이터셋과 파이프라인 코드를 모두 공개하여 커뮤니티가 접근하고 방법을 재현 및 확장할 수 있도록 합니다.

방법론

  1. Pull‑request mining – 시스템은 GitHub를 크롤링하여 5.2 천 개 저장소에서 6 백만 개의 PR을 수집하고, 코드가 수정되고 병합 커밋이 포함된 PR을 선택합니다.
  2. Three‑agent orchestration
    • EnvAgent는 저장소의 의존성 및 런타임을 그대로 반영하는 재현 가능한 샌드박스(Docker/conda)를 구축합니다.
    • TestAgent는 정적 분석, 변이 테스트, LLM 기반 테스트 합성을 결합하여 변경된 코드에 대한 단위 테스트를 자동으로 생성합니다.
    • PromptAgent는 커밋 메시지, 이슈 토론, 코드 diff를 기반으로 개발자가 보는 “코딩 작업”이라는 간결한 문제 설명을 작성합니다.
  3. Verification loop – 생성된 테스트 스위트를 수정된 코드에 실행하고, 모든 테스트를 통과한 인스턴스만 유지하여 기능적 정확성을 보장합니다.
  4. Trajectory extraction – 검증된 각 인스턴스에 대해 시스템은 단계별 상호작용(프롬프트 → 모델 출력 → 테스트 실행)을 기록하여 학습 트래젝터리를 생성합니다.
  5. Model fine‑tuning – 수집된 트래젝터리를 활용해 Qwen‑30B‑BA3B‑Instruct를 미세 조정하며, 인간 피드백을 통한 강화 학습(RLHF)과 표준 지시 튜닝 손실을 사용해 정확하고 간결한 솔루션을 우선시합니다.

결과 및 발견

  • Dataset scale & diversity – 30개 이상의 프로그래밍 언어에 걸쳐 100 k개의 검증된 인스턴스를 포함하며, 작업당 평균 5개의 파일과 현실적인 의존성 그래프를 가집니다.
  • Baseline vs. fine‑tuned model – 기본 Qwen‑30B 모델은 SWE‑Bench Verified 작업의 약 22 %를 해결했으며, ScaleSWE 트래젝터리에 대해 파인튜닝한 후 ScaleSWE Agent64 % 해결률을 달성하여 성능이 거의 3배에 달했습니다.
  • Ablation studies – 세 에이전트 중 하나라도 제거하면 검증 성공률이 30 % 이상 감소하여 각 구성 요소가 고품질 데이터에 필수적임을 확인했습니다.
  • Human evaluation – 독립 개발자들은 생성된 문제 설명을 87 %의 경우에 “명확하고 현실적”이라고 평가했으며, 이는 합성 프롬프트가 교육 및 벤치마킹에 활용 가능함을 나타냅니다.

실용적인 시사점

  • 더 나은 코딩 어시스턴트 – 개발자는 실제 풀‑리퀘스트 시나리오에 대해 학습된 모델을 통합할 수 있어, 프로젝트 규칙, 의존성 제약, 테스트‑주도 개발 관행을 존중하는 제안을 제공한다.
  • 도구 구축 가속화 – 자동 코드 리뷰, 버그‑수정 생성, CI‑어시스턴트 도구를 만드는 기업은 ScaleSWE 데이터셋을 활용해 비용이 많이 드는 수동 데이터 수집 없이 모델을 부트스트랩할 수 있다.
  • 지속적인 데이터 파이프라인 – 멀티‑에이전트 워크플로를 최신 PR 스트림에 대해 정기적으로 실행하면, 오픈‑소스 생태계와 함께 진화하는 생생한 데이터셋을 만들 수 있다—새로운 라이브러리와 프레임워크에 맞춰 LLM을 최신 상태로 유지하는 데 유용하다.
  • 벤치마킹 및 연구 – 연구자들은 현실적인 SWE 작업에 대한 대규모 검증된 벤치마크를 확보하게 되어, 현재 문헌을 장악하고 있는 합성 또는 장난감 예제들을 넘어선 평가가 가능해진다.

제한 사항 및 향후 작업

  • 언어 편향 – 데이터셋이 많은 언어를 포함하고 있지만, 대부분의 사례는 여전히 Python, JavaScript, Java이며 이는 GitHub의 언어 분포를 반영합니다; 드문 언어는 여전히 충분히 대표되지 못합니다.
  • 테스트 품질 한계 – 자동화된 테스트 생성은 효과적이지만, 인간이 작성한 테스트가 잡아낼 수 있는 경계 사례 버그를 놓칠 수 있어 실제 해결률을 과대평가할 가능성이 있습니다.
  • 컴퓨팅 비용 – 수백만 개의 PR에 대해 샌드박스 에이전트를 실행하려면 상당한 클라우드 자원이 필요하며, 이는 소규모 연구실에서 재현성을 제한할 수 있습니다.
  • 향후 방향 – 저자들은 (1) 테스트 커버리지를 향상시키기 위해 보다 정교한 정적 분석을 도입하고, (2) 다중 모듈 및 마이크로서비스 아키텍처를 처리하도록 파이프라인을 확장하며, (3) 모델 실패가 목표 데이터 생성을 촉발하는 활성 학습 루프를 탐색할 계획입니다.

저자

  • Jiale Zhao
  • Guoxin Chen
  • Fanzhe Meng
  • Minghao Li
  • Jie Chen
  • Hui Xu
  • Yongshuai Sun
  • Xin Zhao
  • Ruihua Song
  • Yuan Zhang
  • Peng Wang
  • Cheng Chen
  • Jirong Wen
  • Kai Jia

논문 정보

  • arXiv ID: 2602.09892v1
  • 카테고리: cs.SE
  • 출판일: 2026년 2월 10일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »