1달러 이하로 LLM 평가
Source: Dev.to
왜 평가가 중요한가
모델을 훈련시키는 것은 일의 절반에 불과합니다. 실제로 무엇을 할 수 있는지 체계적으로 측정할 방법이 없으면 눈을 가리고 날아다니는 겁니다. 평가는 잘못하기 쉽습니다—벤치마크를 실행하고 숫자를 얻은 뒤, 실제로는 모르는 상태에서 뭔가 안다고 착각하기 쉽죠. 이 글에서는 예산을 최소화하면서 올바르게 평가하는 방법을 보여줍니다.
방법론
무료 Colab T4에서 Qwen2.5‑0.5B에 대해 세 가지 표준 벤치마크를 실행하고, 각 작업에 대한 실제 시간과 비용을 기록했으며, 모든 방법론적 결정을 문서화했습니다. 총 지출: $0.1185.
| 벤치마크 | 평가 항목 | 프롬프트 방식 |
|---|---|---|
| GSM8K (Cobbe et al., 2021) | 초등학교 수준 수학 추론; 체인‑오브‑쓰리와 최종 숫자 답(정확히 일치) 필요 | 5‑shot |
| HellaSwag (Zellers et al., 2019) | 상식 기반 문장 완성; 모델이 네 후보 이어지를 정규화된 로그‑우도(log‑likelihood)로 점수 매김 | 10‑shot |
| TruthfulQA‑MC2 (Lin et al., 2021) | 거짓 신념을 유발하기 쉬운 질문에 대한 진실성; 다중 선택을 로그‑우도로 점수 매김 | 0‑shot |
세 작업 모두 EleutherAI의 lm‑evaluation‑harness를 통해 실행했으며, 이 도구는 few‑shot 프롬프트 구성, 정규화, 메트릭 계산을 표준화합니다. 동일한 평가를 두 번 실행하면 같은 숫자가 나와야 합니다.
비공식적인 결정: harness에서 GSM8K는 기본값이 max_gen_toks=2048이라 T4에서 4시간 이상 걸렸습니다. 이를 256 토큰으로 제한하고 테스트 세트의 25 %만(limit=0.25) 평가하도록 했습니다. 이렇게 하면 전체 체인‑오브‑쓰리를 포착하면서 실행 시간을 50분 이하로 줄일 수 있었습니다.
모델: Qwen2.5‑0.5B는 알리바바에서 만든 500 M 파라미터 베이스 모델입니다. 무료 Colab T4의 15 GB VRAM에 충분히 들어가며, 세 벤치마크를 한 세션에 모두 실행할 수 있을 정도로 빠릅니다. 베이스 모델(지시‑튜닝되지 않음)이라서 이번 실험은 주로 런타임, 생성 행동, 표준 벤치마크 작업 하에서의 평가‑비용 특성을 반영합니다.
비용 기준: T4 세션당 시간당 약 $0.10인 Colab Pro 기준.
비용 상세
| 작업 | 시간 | 비용 |
|---|---|---|
| GSM8K | 46.52 분 | $0.0775 |
| HellaSwag | 23.67 분 | $0.0394 |
| TruthfulQA‑MC2 | 0.97 분 | $0.0016 |
| 총합 | 71.16 분 | $0.1185 |
생성 메트릭
| 작업 | 기록된 메트릭 | 생성 길이 |
|---|---|---|
| GSM8K | sample_len | 330 |
| HellaSwag | sample_len | 2 511 |
| TruthfulQA‑MC2 | sample_len | 205 |
주의사항
- 오염 가능성: Qwen의 훈련 데이터 구성이 완전히 공개되지 않았습니다. 이 벤치마크 중 일부가 사전 훈련 데이터에 포함됐을 경우 점수가 부풀려질 수 있습니다.
- 정확히 일치하는 경우 과소평가: GSM8K는 최종 답의 형식이 다르면(예: “42 dollars” vs. “42”) 오답으로 처리합니다. 추론 자체가 맞더라도 점수가 낮게 나올 수 있어 실제 정확도는 약간 더 높을 가능성이 있습니다.
- 프롬프트 민감도: few‑shot 예시나 프롬프트 형식을 바꾸면 점수가 눈에 띄게 변할 수 있습니다. 여기 제시된 수치는 기본 harness 프롬프트 템플릿에 한정된 결과입니다.
- 단일 모델 스냅샷: 하나의 모델을 세 벤치마크에 적용한 것은 전체 상황을 보여주는 스냅샷일 뿐입니다. 베이스 모델, LoRA 파인‑튜닝, DPO 파인‑튜닝 등 여러 체크포인트를 비교하면 변화를 더 잘 파악할 수 있습니다.
결과 및 노트북
전체 결과와 노트북은 GitHub의 lm‑eval‑harness 저장소에 커밋되어 있습니다:
https://github.com/Thoki-Buthelezi/elite-ai-systems-engineer-2026