1달러 이하로 LLM 평가

발행: 3주 전 (2026년 5월 14일 PM 10:39 GMT+9)

6 분 소요

Source: Dev.to

왜 평가가 중요한가

모델을 훈련시키는 것은 일의 절반에 불과합니다. 실제로 무엇을 할 수 있는지 체계적으로 측정할 방법이 없으면 눈을 가리고 날아다니는 겁니다. 평가는 잘못하기 쉽습니다—벤치마크를 실행하고 숫자를 얻은 뒤, 실제로는 모르는 상태에서 뭔가 안다고 착각하기 쉽죠. 이 글에서는 예산을 최소화하면서 올바르게 평가하는 방법을 보여줍니다.

방법론

무료 Colab T4에서 Qwen2.5‑0.5B에 대해 세 가지 표준 벤치마크를 실행하고, 각 작업에 대한 실제 시간과 비용을 기록했으며, 모든 방법론적 결정을 문서화했습니다. 총 지출: $0.1185.

벤치마크	평가 항목	프롬프트 방식
GSM8K (Cobbe et al., 2021)	초등학교 수준 수학 추론; 체인‑오브‑쓰리와 최종 숫자 답(정확히 일치) 필요	5‑shot
HellaSwag (Zellers et al., 2019)	상식 기반 문장 완성; 모델이 네 후보 이어지를 정규화된 로그‑우도(log‑likelihood)로 점수 매김	10‑shot
TruthfulQA‑MC2 (Lin et al., 2021)	거짓 신념을 유발하기 쉬운 질문에 대한 진실성; 다중 선택을 로그‑우도로 점수 매김	0‑shot

세 작업 모두 EleutherAI의 lm‑evaluation‑harness를 통해 실행했으며, 이 도구는 few‑shot 프롬프트 구성, 정규화, 메트릭 계산을 표준화합니다. 동일한 평가를 두 번 실행하면 같은 숫자가 나와야 합니다.

비공식적인 결정: harness에서 GSM8K는 기본값이 max_gen_toks=2048이라 T4에서 4시간 이상 걸렸습니다. 이를 256 토큰으로 제한하고 테스트 세트의 25 %만(limit=0.25) 평가하도록 했습니다. 이렇게 하면 전체 체인‑오브‑쓰리를 포착하면서 실행 시간을 50분 이하로 줄일 수 있었습니다.

모델: Qwen2.5‑0.5B는 알리바바에서 만든 500 M 파라미터 베이스 모델입니다. 무료 Colab T4의 15 GB VRAM에 충분히 들어가며, 세 벤치마크를 한 세션에 모두 실행할 수 있을 정도로 빠릅니다. 베이스 모델(지시‑튜닝되지 않음)이라서 이번 실험은 주로 런타임, 생성 행동, 표준 벤치마크 작업 하에서의 평가‑비용 특성을 반영합니다.

비용 기준: T4 세션당 시간당 약 $0.10인 Colab Pro 기준.

비용 상세

작업	시간	비용
GSM8K	46.52 분	$0.0775
HellaSwag	23.67 분	$0.0394
TruthfulQA‑MC2	0.97 분	$0.0016
총합	71.16 분	$0.1185

생성 메트릭

작업	기록된 메트릭	생성 길이
GSM8K	`sample_len`	330
HellaSwag	`sample_len`	2 511
TruthfulQA‑MC2	`sample_len`	205

주의사항

오염 가능성: Qwen의 훈련 데이터 구성이 완전히 공개되지 않았습니다. 이 벤치마크 중 일부가 사전 훈련 데이터에 포함됐을 경우 점수가 부풀려질 수 있습니다.
정확히 일치하는 경우 과소평가: GSM8K는 최종 답의 형식이 다르면(예: “42 dollars” vs. “42”) 오답으로 처리합니다. 추론 자체가 맞더라도 점수가 낮게 나올 수 있어 실제 정확도는 약간 더 높을 가능성이 있습니다.
프롬프트 민감도: few‑shot 예시나 프롬프트 형식을 바꾸면 점수가 눈에 띄게 변할 수 있습니다. 여기 제시된 수치는 기본 harness 프롬프트 템플릿에 한정된 결과입니다.
단일 모델 스냅샷: 하나의 모델을 세 벤치마크에 적용한 것은 전체 상황을 보여주는 스냅샷일 뿐입니다. 베이스 모델, LoRA 파인‑튜닝, DPO 파인‑튜닝 등 여러 체크포인트를 비교하면 변화를 더 잘 파악할 수 있습니다.

결과 및 노트북

전체 결과와 노트북은 GitHub의 lm‑eval‑harness 저장소에 커밋되어 있습니다:

https://github.com/Thoki-Buthelezi/elite-ai-systems-engineer-2026

1달러 이하로 LLM 평가

왜 평가가 중요한가

방법론

비용 상세

생성 메트릭

주의사항

결과 및 노트북

관련 글

오픈 에이전트 리더보드

프롬프트 엔지니어링: AI에서 더 나은 결과를 얻는 방법 (프롬프트를 더 많이 작성하지 않고)

RLHF가 Claude를 장황하게 만들었다. 여기 증거가 있다

KV 캐싱으로 LLM 추론 최적화