[논문] 통과율을 넘어서: 다국어·실행 기반 오픈 코드 LLM 평가

발행: 3일 전 (2026년 6월 8일 AM 06:10 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.08840v1

개요

코드 생성 모델은 보통 간결한 실행 벤치마크와 전체 통과율을 기준으로 비교되지만, 이러한 요약은 프로그래밍 언어, 문제군, 실패 유형별 성능 변화를 가릴 수 있다. 우리는 12개 프로그래밍 언어에 걸쳐 2,707개의 무료 LeetCode 문제에 대해 9개의 공개 LLM(코딩 특화 모델)를 대규모로, 실행 기반으로 평가하였다. 우리 데이터셋은 325,343개의 문제‑모델‑언어 작업을 포함하며, 각 작업은 프롬프트 메타데이터, 추출된 코드, LeetCode 실행 결과, 정적 분석 신호와 연결된다. 결과는 현재 공개 모델들이 인간 수용 기준에 크게 못 미친다는 것을 보여준다: 최고 모델인 Yi‑Coder‑9B‑Chat의 평균 정답률은 23.64%에 불과한 반면, 인간 수용 기준은 57.2%이다. 순위는 또한 평가 슬라이스에 따라 달라진다: Qwen2.5‑Coder‑14B‑Instruct는 난이도 높은 문제와 다양한 문제 커버리지에서 가장 강력하고, Gemma‑2‑27B‑IT는 모든 언어에서 가장 높은 정적 분석 통과율을 기록한다. 실패 분석 결과, 컴파일 오류가 비수용 최우수 제출물의 63.25%를 차지해 의미론적 정확성을 테스트하기 전에 많은 실패가 발생함을 알 수 있다. 정적 품질은 기능적 정확성과도 크게 다르다. 이러한 발견은 다언어·아티팩트 보존 평가가 단일 언어·단일 지표 리더보드에 숨겨진 트레이드오프를 드러낸다는 점을 시사한다.

핵심 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.AI
cs.SE

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 시사점

이 연구는 cs.AI 분야의 발전에 기여한다.

저자

Sayed Erfan Arefin

논문 정보

arXiv ID: 2606.08840v1
분류: cs.AI, cs.SE
발표일: 2026년 6월 7일
PDF: PDF 다운로드

[논문] 통과율을 넘어서: 다국어·실행 기반 오픈 코드 LLM 평가

개요

핵심 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] 피드백 정렬의 랭크 붕괴 극복

[논문] 온라인 플랫폼의 데이터 기반 동적 상품 구색: 양측면 학습

[논문] 자율 가속기 설계를 향해: SECDA 기반 FPGA 가속기 생성

[논문] 기자가 설계했지만 독자를 위한 걸까? AI 공개와 뉴스 투명성 재고