[논문] 통과율을 넘어서: 다국어·실행 기반 오픈 코드 LLM 평가
개요
코드 생성 모델은 보통 간결한 실행 벤치마크와 전체 통과율을 기준으로 비교되지만, 이러한 요약은 프로그래밍 언어, 문제군, 실패 유형별 성능 변화를 가릴 수 있다. 우리는 12개 프로그래밍 언어에 걸쳐 2,707개의 무료 LeetCode 문제에 대해 9개의 공개 LLM(코딩 특화 모델)를 대규모로, 실행 기반으로 평가하였다. 우리 데이터셋은 325,343개의 문제‑모델‑언어 작업을 포함하며, 각 작업은 프롬프트 메타데이터, 추출된 코드, LeetCode 실행 결과, 정적 분석 신호와 연결된다. 결과는 현재 공개 모델들이 인간 수용 기준에 크게 못 미친다는 것을 보여준다: 최고 모델인 Yi‑Coder‑9B‑Chat의 평균 정답률은 23.64%에 불과한 반면, 인간 수용 기준은 57.2%이다. 순위는 또한 평가 슬라이스에 따라 달라진다: Qwen2.5‑Coder‑14B‑Instruct는 난이도 높은 문제와 다양한 문제 커버리지에서 가장 강력하고, Gemma‑2‑27B‑IT는 모든 언어에서 가장 높은 정적 분석 통과율을 기록한다. 실패 분석 결과, 컴파일 오류가 비수용 최우수 제출물의 63.25%를 차지해 의미론적 정확성을 테스트하기 전에 많은 실패가 발생함을 알 수 있다. 정적 품질은 기능적 정확성과도 크게 다르다. 이러한 발견은 다언어·아티팩트 보존 평가가 단일 언어·단일 지표 리더보드에 숨겨진 트레이드오프를 드러낸다는 점을 시사한다.
핵심 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.AI
- cs.SE
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 시사점
이 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Sayed Erfan Arefin
논문 정보
- arXiv ID: 2606.08840v1
- 분류: cs.AI, cs.SE
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드