[논문] SWE-Explore: 코딩 에이전트의 레포지토리 탐색 벤치마크

발행: 5일 전 (2026년 6월 5일 PM 11:08 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.07297v1

개요

SWE-bench와 같은 저장소 수준 코딩 벤치마크는 코딩 에이전트의 역량을 급격히 끌어올렸습니다. 그러나 이들 벤치마크는 보통 코딩 작업을 전체적인 이진 예측 문제(예: 해결됨/해결되지 않음)로 취급하여, 저장소 이해, 컨텍스트 검색, 코드 위치 파악, 버그 진단 등과 같은 세부적인 에이전트 능력을 간과합니다. 본 논문에서는 코딩 에이전트의 핵심 역량인 저장소 탐색을 별도로 평가하는 벤치마크인 SWE-Explore를 소개합니다. 저장소와 이슈가 주어지면, SWE-Explore는 탐색자가 제한된 라인 예산 내에서 관련 코드 영역을 순위가 매겨진 리스트 형태로 반환하도록 요구합니다. SWE-Explore는 10개 프로그래밍 언어와 203개의 오픈소스 저장소에 걸쳐 848개의 이슈를 포함합니다. 각 사례마다, 동일한 이슈를 성공적으로 해결한 독립적인 에이전트 경로로부터 라인 수준의 정답을 도출하여, 해결 과정에서 실제로 참조한 코드 영역을 추출합니다. 우리는 커버리지, 랭킹, 컨텍스트 효율성 측면에서 탐색을 평가하고, 이러한 지표가 하위 단계인 버그 수정 행동과 강하게 연관됨을 보여줍니다. 다양한 검색 방법, 일반 코딩 에이전트, 특화된 로컬라이저들을 폭넓게 실험한 결과, 에이전트 기반 탐색자는 전통적인 검색 방식보다 명확히 높은 수준을 형성함을 확인했습니다. 최신 방법에서는 파일 수준 로컬라이제이션이 이미 강력하지만, 라인 수준 커버리지와 효율적인 랭킹은 최첨단 탐색자를 구분짓는 핵심 축으로 남아 있습니다.

주요 기여

본 논문은 다음 분야의 연구를 다룹니다.

cs.SE
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여합니다.

저자

Shaoqiu Zhang
Yuhang Wang
Jialiang Liang
Yuling Shi
Wenhao Zeng
Maoquan Wang
Shilin He
Ningyuan Xu
Siyu Ye
Kai Cai
Xiaodong Gu

논문 정보

arXiv ID: 2606.07297v1
분류: cs.SE, cs.CL
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] SWE-Explore: 코딩 에이전트의 레포지토리 탐색 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다