[Paper] GitHub 우주에 몰입: 코딩 에이전트 스케일링을 통한 마스터리

발행: 2일 전 (2026년 2월 11일 오전 12:30 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.09892v1

Overview

이 논문은 ScaleSWE를 소개합니다. ScaleSWE는 완전 자동화된 샌드박스형 멀티‑에이전트 파이프라인으로, 실제 소프트웨어 엔지니어링(SWE) 데이터를 대규모로 수집하고 정제할 수 있습니다. 환경 설정, 테스트 생성, 문제 진술 합성이라는 세 가지 특화된 에이전트를 조정하여 저자들은 5,200개의 GitHub 저장소에서 600만 개의 풀 리퀘스트를 처리했으며, 그 결과 100 k 검증된 SWE 인스턴스라는 공개 데이터셋을 만들었습니다. 이는 현재까지 가장 큰 규모의 데이터셋입니다. 또한 저자들은 이 데이터를 활용해 대형 언어 모델(LLM)을 고성능 코딩 어시스턴트로 미세 조정할 수 있음을 보여줍니다.

주요 기여

ScaleSWE 파이프라인: 원시 풀‑리퀘스트 기록에서 자동으로 엔드‑투‑엔드 코딩 작업(환경, 테스트, 설명)을 구축하는 재현 가능한 다중‑에이전트 워크플로우.
ScaleSWE 데이터: 다양한 언어, 라이브러리, 프로젝트 규모를 포괄하는 100 k개의 고품질 검증된 소프트웨어 엔지니어링 사례로, 양과 현실성 모두에서 기존 벤치마크를 크게 능가합니다.
에이전트 기반 데이터 생성: 목적에 맞게 설계된 세 개의 에이전트가 인간 개입 없이도 올바른 테스트 스위트와 일관된 문제 설명을 신뢰성 있게 생성할 수 있음을 보여줍니다.
모델 파인튜닝: 71 498개의 성공적인 실행 궤적을 추출하고 Qwen‑30B‑BA3B‑Instruct 모델을 파인튜닝하여 ScaleSWE 에이전트를 생성합니다. 이 에이전트는 SWE‑Bench Verified 벤치마크에서 64 %의 작업을 해결하며(기본 모델 대비 약 3배 향상).
오픈소스 공개: 데이터셋과 파이프라인 코드를 모두 공개하여 커뮤니티가 접근하고 방법을 재현 및 확장할 수 있도록 합니다.

방법론

Pull‑request mining – 시스템은 GitHub를 크롤링하여 5.2 천 개 저장소에서 6 백만 개의 PR을 수집하고, 코드가 수정되고 병합 커밋이 포함된 PR을 선택합니다.
Three‑agent orchestration
- EnvAgent는 저장소의 의존성 및 런타임을 그대로 반영하는 재현 가능한 샌드박스(Docker/conda)를 구축합니다.
- TestAgent는 정적 분석, 변이 테스트, LLM 기반 테스트 합성을 결합하여 변경된 코드에 대한 단위 테스트를 자동으로 생성합니다.
- PromptAgent는 커밋 메시지, 이슈 토론, 코드 diff를 기반으로 개발자가 보는 “코딩 작업”이라는 간결한 문제 설명을 작성합니다.
Verification loop – 생성된 테스트 스위트를 수정된 코드에 실행하고, 모든 테스트를 통과한 인스턴스만 유지하여 기능적 정확성을 보장합니다.
Trajectory extraction – 검증된 각 인스턴스에 대해 시스템은 단계별 상호작용(프롬프트 → 모델 출력 → 테스트 실행)을 기록하여 학습 트래젝터리를 생성합니다.
Model fine‑tuning – 수집된 트래젝터리를 활용해 Qwen‑30B‑BA3B‑Instruct를 미세 조정하며, 인간 피드백을 통한 강화 학습(RLHF)과 표준 지시 튜닝 손실을 사용해 정확하고 간결한 솔루션을 우선시합니다.

결과 및 발견

Dataset scale & diversity – 30개 이상의 프로그래밍 언어에 걸쳐 100 k개의 검증된 인스턴스를 포함하며, 작업당 평균 5개의 파일과 현실적인 의존성 그래프를 가집니다.
Baseline vs. fine‑tuned model – 기본 Qwen‑30B 모델은 SWE‑Bench Verified 작업의 약 22 %를 해결했으며, ScaleSWE 트래젝터리에 대해 파인튜닝한 후 ScaleSWE Agent는 64 % 해결률을 달성하여 성능이 거의 3배에 달했습니다.
Ablation studies – 세 에이전트 중 하나라도 제거하면 검증 성공률이 30 % 이상 감소하여 각 구성 요소가 고품질 데이터에 필수적임을 확인했습니다.
Human evaluation – 독립 개발자들은 생성된 문제 설명을 87 %의 경우에 “명확하고 현실적”이라고 평가했으며, 이는 합성 프롬프트가 교육 및 벤치마킹에 활용 가능함을 나타냅니다.

실용적인 시사점

더 나은 코딩 어시스턴트 – 개발자는 실제 풀‑리퀘스트 시나리오에 대해 학습된 모델을 통합할 수 있어, 프로젝트 규칙, 의존성 제약, 테스트‑주도 개발 관행을 존중하는 제안을 제공한다.
도구 구축 가속화 – 자동 코드 리뷰, 버그‑수정 생성, CI‑어시스턴트 도구를 만드는 기업은 ScaleSWE 데이터셋을 활용해 비용이 많이 드는 수동 데이터 수집 없이 모델을 부트스트랩할 수 있다.
지속적인 데이터 파이프라인 – 멀티‑에이전트 워크플로를 최신 PR 스트림에 대해 정기적으로 실행하면, 오픈‑소스 생태계와 함께 진화하는 생생한 데이터셋을 만들 수 있다—새로운 라이브러리와 프레임워크에 맞춰 LLM을 최신 상태로 유지하는 데 유용하다.
벤치마킹 및 연구 – 연구자들은 현실적인 SWE 작업에 대한 대규모 검증된 벤치마크를 확보하게 되어, 현재 문헌을 장악하고 있는 합성 또는 장난감 예제들을 넘어선 평가가 가능해진다.

제한 사항 및 향후 작업

언어 편향 – 데이터셋이 많은 언어를 포함하고 있지만, 대부분의 사례는 여전히 Python, JavaScript, Java이며 이는 GitHub의 언어 분포를 반영합니다; 드문 언어는 여전히 충분히 대표되지 못합니다.
테스트 품질 한계 – 자동화된 테스트 생성은 효과적이지만, 인간이 작성한 테스트가 잡아낼 수 있는 경계 사례 버그를 놓칠 수 있어 실제 해결률을 과대평가할 가능성이 있습니다.
컴퓨팅 비용 – 수백만 개의 PR에 대해 샌드박스 에이전트를 실행하려면 상당한 클라우드 자원이 필요하며, 이는 소규모 연구실에서 재현성을 제한할 수 있습니다.
향후 방향 – 저자들은 (1) 테스트 커버리지를 향상시키기 위해 보다 정교한 정적 분석을 도입하고, (2) 다중 모듈 및 마이크로서비스 아키텍처를 처리하도록 파이프라인을 확장하며, (3) 모델 실패가 목표 데이터 생성을 촉발하는 활성 학습 루프를 탐색할 계획입니다.

저자

Jiale Zhao
Guoxin Chen
Fanzhe Meng
Minghao Li
Jie Chen
Hui Xu
Yongshuai Sun
Xin Zhao
Ruihua Song
Yuan Zhang
Peng Wang
Cheng Chen
Jirong Wen
Kai Jia

논문 정보

arXiv ID: 2602.09892v1
카테고리: cs.SE
출판일: 2026년 2월 10일
PDF: Download PDF

[Paper] GitHub 우주에 몰입: 코딩 에이전트 스케일링을 통한 마스터리

Overview

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Large Language Models를 활용한 IoT 네트워크의 알 수 없는 공격 탐지: 견고하고 데이터 효율적인 접근법

[Paper] PPTAM$η$: 에너지 인식 CI/CD 파이프라인, 컨테이너 기반 애플리케이션을 위한

[Paper] 성능 안티패턴: 전력 소비에 대한 천사인가 악마인가?

[Paper] 수동 및 자동 코드 리뷰를 통해 권장된 품질 향상 연구