[Paper] SWE-rebench V2: 언어에 구애받지 않는 대규모 SWE 작업 컬렉션
발행: (2026년 2월 27일 오후 07:06 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.23866v1
번역할 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다.
Overview
이 논문은 SWE‑rebench V2를 소개한다. 이는 새로운 언어에 구애받지 않는 파이프라인으로, 오픈소스 저장소에서 실제 소프트웨어 엔지니어링(SWE) 작업을 자동으로 수집하고 이를 바로 실행 가능한 강화 학습(RL) 환경으로 변환한다. 작업 수(수만 개)와 프로그래밍 언어 종류(20 개 이상)를 모두 확장함으로써, 저자들은 AI‑기반 코딩 어시스턴트 개발자들에게 그 어느 때보다 풍부한 학습 환경을 제공하고자 한다.
핵심 기여
- 자동화된, 언어‑agnostic 수집 파이프라인으로 GitHub 저장소에서 설치 스크립트, 테스트 스위트, 문제 설명을 추출합니다.
- LLM‑based 필터링을 위해 판정자 앙상블을 사용해 잡음이 많거나 해결 불가능한 인스턴스를 제거하고, 인간‑주석 벤치마크와 검증합니다.
- 대규모 데이터셋:
- 32 k+ 고품질 작업으로 재현 가능한 Docker 이미지와 20개 언어, 3.6 k 저장소를 포함합니다.
- 120 k+ 추가 작업은 설치 지침 및 메타데이터만 제공(사전 구축 이미지 없음).
- 오픈‑소스 공개 데이터셋, 수집 코드, 실행 인프라를 제공하여 누구나 벤치마크를 재현하거나 확장할 수 있습니다.
- 진단 평가 다섯 개 언어와 일곱 개 인기 LLM에 대해 수행하여 과도하게 엄격한 테스트나 모호한 설명과 같은 일반적인 혼동 요인을 밝혀냈습니다.
방법론
- Repository Mining – 파이프라인은 명확한 설명과 연관된 테스트 스위트를 포함하는 최근 풀‑리퀘스트(PR) 병합을 찾기 위해 GitHub를 크롤링합니다.
- Interactive Setup Agent – 후보 레포지토리마다 가벼운 에이전트가 프로젝트를 설치하고 테스트를 실행하려 시도하며, 정확한 환경(OS, 의존성, 빌드 도구)을 포착하는 Dockerfile과 스크립트를 자동으로 생성합니다.
- LLM Judging Ensemble – 여러 대형 언어 모델에게 추출된 작업이 잘 정의되었는지(예: 테스트가 실제로 PR 변경을 검증하는가?) 평가하도록 프롬프트를 제공하고, 그들의 투표를 집계합니다; 합의에 도달한 작업만 최종 세트에 포함됩니다.
- Human Validation – 필터링된 작업 중 일부를 기존 SWE‑bench 주석과 교차 검증하여 LLM 판정이 편향되지 않았는지 확인합니다.
- Metadata Enrichment – 각 작업에 언어, 레포지토리, 테스트 성공/실패 상태, 알려진 이슈에 대한 플래그(예: 불안정한 테스트, 모호한 문제 설명)를 주석으로 달아줍니다.
- Dataset Packaging – 고품질 작업은 사전 구축된 Docker 이미지와 함께 제공되며, 더 크고 가벼운 세트는 설치 스크립트와 메타데이터만 포함해 실시간 이미지 생성을 지원합니다.
결과 및 발견
- 규모: 파이프라인은 32 k+ 완전 재현 가능한 작업(≈ 이전 SWE‑bench 릴리스 대비 10배)과 120 k+ “light” 작업을 생성했습니다.
- 언어 다양성: 작업은 20개의 프로그래밍 언어에 걸쳐 있으며, 메인스트림(Python, JavaScript, Java)부터 니치(Rust, Haskell, Elixir)까지 포함합니다.
- 품질: 인간이 검증한 샘플링 결과, 필터링된 작업의 **≈ 92 %**가 해결 가능하고 의미 있는 테스트 스위트를 가지고 있어, 수동으로 큐레이션된 벤치마크와 동등하거나 그 이상인 품질을 보여줍니다.
- 모델 진단: 대표적인 슬라이스에서 평가했을 때, 최첨단 LLM(예: GPT‑4, Claude‑2)도 과도하게 제한적인 테스트나 불명확한 PR 설명이 포함된 많은 작업에서 여전히 어려움을 겪고 있음을 확인했습니다. 이는 더 크고 다양화된 학습 데이터가 이러한 격차를 메우는 데 도움이 될 수 있음을 시사합니다.
Practical Implications
- Richer Training Data for Code‑Gen Agents – 개발자가 RL 기반 코드 어시스턴트를 구축할 때 이제 실제 프로젝트의 이질성을 반영한 데이터셋으로 학습할 수 있어, 언어 간 일반화가 향상될 가능성이 있습니다.
- Benchmarking Across Ecosystems – 언어에 구애받지 않는 특성 덕분에 팀은 이전에 무시했던 언어에서도 모델을 평가할 수 있어, 숨겨진 약점을 발견할 수 있습니다.
- Faster Prototyping – 사전 구축된 Docker 이미지 덕분에 작업을 몇 초 만에 시작할 수 있어, 맞춤형 RL 환경을 만드는 엔지니어링 비용을 크게 줄입니다.
- Better Test‑Driven Evaluation – 불안정하거나 과도하게 엄격한 테스트를 표시하는 상세 메타데이터를 통해, 연구자는 테스트 조작이 아닌 실제 문제 해결 능력에 초점을 맞춘 보다 견고한 평가 프로토콜을 설계할 수 있습니다.
- Open‑source Ecosystem – 파이프라인을 공개함으로써 다른 팀은 컬렉션을 사내 코드베이스나 신생 언어로 확장할 수 있어, 커뮤니티 주도 벤치마크 생태계를 촉진합니다.
제한 사항 및 향후 작업
- 기존 테스트 스위트에 대한 의존 – 포괄적인 테스트가 없는 프로젝트는 충분히 대표되지 않아 모델이 잘 테스트된 코드 패턴에 편향될 수 있습니다.
- LLM 필터링 편향 – 앙상블 판사는 기본 LLM의 편향을 물려받으며, 드물거나 비전통적인 작업이 잘못 제외될 수 있습니다.
- 불안정한 테스트가 남아 있음 – 메타데이터 플래그에도 불구하고 일부 작업은 여전히 비결정적인 테스트 동작을 포함하여 RL 학습을 혼란스럽게 할 수 있습니다.
- 향후 방향은 저자들이 다음과 같이 제안했습니다:
- 정적 분석을 통합하여 누락된 테스트를 보완하기.
- 제어된 라이선스 하에 파이프라인을 사기업 비공개 저장소로 확장하기.
- 노이즈가 많은 후보에서 고품질 작업을 복구하기 위한 반지도 학습 방법 탐색.
저자
- Ibragim Badertdinov
- Maksim Nekrashevich
- Anton Shevtsov
- Alexander Golubev
논문 정보
- arXiv ID: 2602.23866v1
- 카테고리: cs.SE, cs.CL
- 출판일: 2026년 2월 27일
- PDF: PDF 다운로드