LLM 벤치마크는 어려울 때만 의미가 있다.

발행: (2026년 6월 11일 PM 10:00 GMT+9)
8 분 소요
원문: Dev.to

출처: Dev.to

문제의 전반적인 형태는 모든 공개 LLM 벤치마크가 포화 시계 위에 놓여 있다는 점이다. 이 시계는 벤치마크가 발표된 순간부터 해당 모델의 학습 코퍼스가 그 데이터를 “먹어버릴” 때까지 작동한다. 지난 5년간 눈에 보이는 벤치마크들을 살펴보면, 각각이 12~30개월 정도 지나야 최첨단 모델을 구분하는 데 더 이상 유용하지 않게 된다. 벤치마크가 실패한 것이 아니다. 설계된 목적과 순서대로 정확히 수행하고 있을 뿐이며, 연구 분야는 벤치마크를 만든 사람들의 예상보다 훨씬 빠르게 통과하고 있다.

이 포화 패턴에 수치를 붙이고, 오염 증거가 실제로 무엇을 말하는지 살펴본 뒤, 2026년에 정직한 벤치마크가 어떤 모습이어야 하는지 고민해보고자 한다. 현재 연구실들이 수렴하고 있는 “비공개 보류 평가”는 경제적 측면에서 면밀히 검토할 가치가 있다.


HumanEval (Chen et al., OpenAI, 2021년 7월)

  • 164개의 손으로 만든 Python 문제.
  • Codex 발표 시 **pass@1 28.8 %**였으며, 기본 GPT‑3 모델은 **0 %**를 기록했다.
  • GPT‑4(2023년 3월)에서는 원본 기술 보고서에서 **67 %**를 달성했다.
  • 2024년 말, OpenAI의 o1‑preview와 o1‑mini는 **96.3 %**를, Claude 3.5 Sonnet은 **93.7 %**를 기록했다.
  • 운영상 포화 상태에 이른 벤치마크이며, 상위 10개 모델 간 점수 차이는 약 10 %p에 불과해 구분이 어려워졌다. 대부분의 신모델이 천장에 1~2 %p 차이로 도달한다.
  • 이에 대한 대응으로 EvalPlus의 HumanEval+(테스트 케이스 확대) 버전이 등장했다.
  • 수명: 발표 → 운영 포화까지 약 36개월.

MMLU (Hendrycks et al., 2020년 9월)

  • 57개 과목, 약 14,000개의 객관식 문제, 공개 시험 준비 자료와 학술 자료에서 추출.
  • HumanEval과 달리 천장에 도달하지는 않았지만(상위 점수는 80대 후반) 공개 소스가 학습 코퍼스에 포함된 것이 문제다.
  • 오염 증거: 2023년 Deng·Zhao·Tang·Gerstein·Cohan 논문은 “테스트‑셋 슬롯 추측” 기법을 사용해 정답을 마스킹하고 모델이 누락된 옵션을 맞추게 했다. 결과, ChatGPT는 52 %, GPT‑4는 **57 %**의 정확도로 누락 옵션을 재현했다(우연과 지식만으로는 설명 불가).
  • 커뮤니티 대응: ACL 2025년 발표된 MMLU‑CF(오염‑프리 재구성)에서는 모델 순위가 크게 바뀌었다.
  • 수명: 발표 → 오염 확인까지 약 36개월.

SWE‑bench (Jimenez et al., Princeton/MIT, 2023년 10월; SWE‑bench Verified, OpenAI, 2024년 8월)

  • Verified 서브셋: 500개의 Python 전용 과제, 실제 GitHub 이슈를 기반으로 명확히 검증된 문제.
  • 2026년 5월 리더보드: Claude Mythos Preview 93.9 %, Claude Opus 4.7 87.6 %, GPT‑5.2 80.0 %.
  • 오염 사례가 가장 명확했다. OpenAI는 2026년 초 Verified에 대한 감사를 진행했으며, 모든 최첨단 모델(GPT‑5.2, Claude Opus 4.5, Gemini 3 Flash)이 일부 과제에 대해 정답 패치나 문제 진술을 그대로 재현할 수 있음을 발견했다.
  • OpenAI는 Verified 점수 공개를 중단하고, 동일한 훈련‑코퍼스 범위에 포함되지 않은 **SWE‑bench Pro(1,865개의 다언어 과제)**를 권장한다.
  • 수명: 2024년 8월 발표 → 2026년 2월 OpenAI가 포기할 때까지 약 18개월.

GPQA Diamond (Rein et al., 2023년 11월)

  • 198개의 대학원 수준 과학 문제, GPQA 전체 448문제 중 가장 어려운 서브셋.
  • “Google‑proof” 설계: 분야 전문가 박사들은 65 %(명백한 실수 제외 시 74 %)를 맞혔고, 웹 접근이 자유로운 비전문가들은 평균 **34 %**를 기록했다(문제당 30분 평균 소요).
  • 2023년 11월 GPT‑4는 **39 %**를 기록했으며, 2025‑2026년 최첨단 모델들은 94.1 %(Gemini 3.1 Pro Preview) 등 80대 후반·90대 초반 점수대로 포화에 이르렀다.
  • 수명: 발표 → 운영 포화까지 약 30개월(다른 벤치마크보다 빠름).

FrontierMath (Epoch AI, 2024년 11월)

  • 포화 저항을 목표로 설계된 벤치마크: 1‑3 티어는 학부‑초박사 수준, 4 티어는 연구 수준.
  • 수백 개의 독창적인 문제를 현직 수학자가 검증했으며, 답이 공개된 형태로는 절대 제공되지 않는다.
  • 2024년 말 출시 당시 어느 모델도 전체 벤치마크에서 **2 %**를 초과하지 못했지만, 2025년 말에는 최첨단 추론 모델들이 1‑3 티어의 상당 부분을 해결하기 시작했다. Epoch는 “현재 AI가 할 수 없는 벤치마크”에서 “AI가 점차 깨기 시작한 벤치마크”로 인식이 바뀌었다.
  • 수명: 발표 → 의미 있는 점수 도출까지 약 12개월.

ARC‑AGI‑2 (Chollet et al., 2025년 5월)

  • 2019년부터 Chollet이 운영해 온 최신 버전으로, 스케일링에 강인하도록 설계된 작은 격자 퍼즐 형태의 과제들. 인간은 평균 **75 %**를 해결한다.
  • 2025년 말 공개 리더보드에서는 최첨단 LLM이 5 % 수준에 머물렀지만, 2026년 중반 Gemini 3 Deep Think은 **84.6 %**를 기록했다. 제한된 컴퓨팅 자원(Kaggle NVARC) 하에서는 최고 점수가 **24 %**에 불과했다.
  • 공개 리더보드(컴퓨팅 제한 없음)와 사설 대회(자원 제한) 간 격차가 가장 흥미로운 데이터 포인트다.
  • 수명: 측정 기준에 따라 12개월에서 “아직 진행 중”까지 다양.

전체 패턴 요약

  • 벤치마크가 쉬워지는 것이 아니라, 점점 더 어려워지고 있다(설계 의도상).
  • 중요한 패턴은 벤치마크 발표 → 차별화 도구로서의 가치 소멸 사이의 시간이 점점 짧아지고 있다는 점이다.
    • HumanEval: 36개월
    • GPQA Diamond: 30개월
    • SWE‑bench Verified: 18개월
    • FrontierMath: **12
0 조회
Back to Blog

관련 글

더 보기 »