[논문] SWE-Explore: 코딩 에이전트의 레포지토리 탐색 벤치마크
개요
SWE-bench와 같은 저장소 수준 코딩 벤치마크는 코딩 에이전트의 역량을 급격히 끌어올렸습니다. 그러나 이들 벤치마크는 보통 코딩 작업을 전체적인 이진 예측 문제(예: 해결됨/해결되지 않음)로 취급하여, 저장소 이해, 컨텍스트 검색, 코드 위치 파악, 버그 진단 등과 같은 세부적인 에이전트 능력을 간과합니다. 본 논문에서는 코딩 에이전트의 핵심 역량인 저장소 탐색을 별도로 평가하는 벤치마크인 SWE-Explore를 소개합니다. 저장소와 이슈가 주어지면, SWE-Explore는 탐색자가 제한된 라인 예산 내에서 관련 코드 영역을 순위가 매겨진 리스트 형태로 반환하도록 요구합니다. SWE-Explore는 10개 프로그래밍 언어와 203개의 오픈소스 저장소에 걸쳐 848개의 이슈를 포함합니다. 각 사례마다, 동일한 이슈를 성공적으로 해결한 독립적인 에이전트 경로로부터 라인 수준의 정답을 도출하여, 해결 과정에서 실제로 참조한 코드 영역을 추출합니다. 우리는 커버리지, 랭킹, 컨텍스트 효율성 측면에서 탐색을 평가하고, 이러한 지표가 하위 단계인 버그 수정 행동과 강하게 연관됨을 보여줍니다. 다양한 검색 방법, 일반 코딩 에이전트, 특화된 로컬라이저들을 폭넓게 실험한 결과, 에이전트 기반 탐색자는 전통적인 검색 방식보다 명확히 높은 수준을 형성함을 확인했습니다. 최신 방법에서는 파일 수준 로컬라이제이션이 이미 강력하지만, 라인 수준 커버리지와 효율적인 랭킹은 최첨단 탐색자를 구분짓는 핵심 축으로 남아 있습니다.
주요 기여
본 논문은 다음 분야의 연구를 다룹니다.
- cs.SE
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.SE 분야의 발전에 기여합니다.
저자
- Shaoqiu Zhang
- Yuhang Wang
- Jialiang Liang
- Yuling Shi
- Wenhao Zeng
- Maoquan Wang
- Shilin He
- Ningyuan Xu
- Siyu Ye
- Kai Cai
- Xiaodong Gu
논문 정보
- arXiv ID: 2606.07297v1
- 분류: cs.SE, cs.CL
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드