[논문] SmellBench: 리팩토링 작업에서 코드 에이전트를 세밀하게 평가하기 위한 시도

발행: 6일 전 (2026년 6월 4일 AM 10:49 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.05574v1

개요

코드 에이전트는 최근 몇 년간 눈에 띄는 발전을 이루어, 다양한 소프트웨어 엔지니어링 작업에서 강력한 역량을 보여주고 있습니다. 그러나 이들을 오용하면 가독성·확장성·견고성을 해치는 비대하고 무질서한 코드가 생성되는 경우가 많습니다. 이러한 위험에도 불구하고 기존 벤치마크는 대부분 기능적 정확성만을 평가하고, 코드 에이전트의 장기적인 유지보수성을 충분히 고려하지 못하고 있습니다. 본 논문에서는 실제 저장소에서 추출한 깨끗한 코드 스니펫에 의도적으로 코드 스멜을 삽입하는 확장 가능한 리팩터링 벤치마크 SmellBench를 제안합니다. 이 설계는 인간이 작성한 정답(ground truth)을 갖는 통제된 고품질·다양한 리팩터링 사례를 생성할 수 있게 합니다. 구체적으로, 7개의 인기 스멜 유형, 3개의 난이도, 2개의 지시 설정을 아우르는 294개의 사례를 7개의 실제 저장소에서 수집했습니다. 또한 기능적 정확성, 스멜 위치 파악 능력, 리팩터링 품질 평가를 포괄하는 3가지 평가 측면을 설계했습니다. 2개의 인기 에이전트와 6개의 대형 언어 모델(LLM)을 대상으로 실험한 결과, 최적 조합인 Qwen Code + Claude Sonnet 4.5조차도 스멜 제거 점수가 50.34에 불과했습니다. 추가 분석을 통해 이 격차는 로컬(파일 내부) 스멜에만 집중하고 파일 간 이해가 부족해 포괄적인 스멜 제거가 어려워진 데서 비롯된다는 것을 확인했습니다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다.

cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여합니다.

저자

Fake Lin
Binbin Hu
Xi Zhu
Ziwei Zhao
Zhi Zheng
Ziqi Liu
Zhiqiang Zhang
Jun Zhou
Tong Xu

논문 정보

arXiv ID: 2606.05574v1
분류: cs.SE
발표일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] SmellBench: 리팩토링 작업에서 코드 에이전트를 세밀하게 평가하기 위한 시도

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 에이전시가 대세! 새 GitHub 프로젝트에서 코딩 에이전트 도입

[논문] 미국 방위 획득, AI 기반 역량 도입 준비됐나? 시나리오 기반 정책 분석으로 국방부 소프트웨어 획득 경로 평가

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화

[논문] QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트형 벤치마크 프레임워크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 에이전시가 대세! 새 GitHub 프로젝트에서 코딩 에이전트 도입

[논문] 미국 방위 획득, AI 기반 역량 도입 준비됐나? 시나리오 기반 정책 분석으로 국방부 소프트웨어 획득 경로 평가

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화﻿

[논문] QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트형 벤치마크 프레임워크

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화