[논문] SmellBench: 리팩토링 작업에서 코드 에이전트를 세밀하게 평가하기 위한 시도

발행: (2026년 6월 4일 AM 10:49 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.05574v1

개요

코드 에이전트는 최근 몇 년간 눈에 띄는 발전을 이루어, 다양한 소프트웨어 엔지니어링 작업에서 강력한 역량을 보여주고 있습니다. 그러나 이들을 오용하면 가독성·확장성·견고성을 해치는 비대하고 무질서한 코드가 생성되는 경우가 많습니다. 이러한 위험에도 불구하고 기존 벤치마크는 대부분 기능적 정확성만을 평가하고, 코드 에이전트의 장기적인 유지보수성을 충분히 고려하지 못하고 있습니다. 본 논문에서는 실제 저장소에서 추출한 깨끗한 코드 스니펫에 의도적으로 코드 스멜을 삽입하는 확장 가능한 리팩터링 벤치마크 SmellBench를 제안합니다. 이 설계는 인간이 작성한 정답(ground truth)을 갖는 통제된 고품질·다양한 리팩터링 사례를 생성할 수 있게 합니다. 구체적으로, 7개의 인기 스멜 유형, 3개의 난이도, 2개의 지시 설정을 아우르는 294개의 사례를 7개의 실제 저장소에서 수집했습니다. 또한 기능적 정확성, 스멜 위치 파악 능력, 리팩터링 품질 평가를 포괄하는 3가지 평가 측면을 설계했습니다. 2개의 인기 에이전트와 6개의 대형 언어 모델(LLM)을 대상으로 실험한 결과, 최적 조합인 Qwen Code + Claude Sonnet 4.5조차도 스멜 제거 점수가 50.34에 불과했습니다. 추가 분석을 통해 이 격차는 로컬(파일 내부) 스멜에만 집중하고 파일 간 이해가 부족해 포괄적인 스멜 제거가 어려워진 데서 비롯된다는 것을 확인했습니다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다.

  • cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여합니다.

저자

  • Fake Lin
  • Binbin Hu
  • Xi Zhu
  • Ziwei Zhao
  • Zhi Zheng
  • Ziqi Liu
  • Zhiqiang Zhang
  • Jun Zhou
  • Tong Xu

논문 정보

  • arXiv ID: 2606.05574v1
  • 분류: cs.SE
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »