나는 50개의 사실 질문에 3개의 로컬 LLM을 벤치마크했는데 - 여기 실패한 점들
발행: (2026년 4월 20일 PM 07:27 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
설정
- 5개 카테고리에서 50개의 사실 질문
- 3개 모델: llama3.2, mistral, phi3
- Ollama를 사용해 100 % 로컬에서 실행 – API 키 불필요
순위표
| 모델 | 정확도 | 정답 / 전체 | 평균 지연시간 |
|---|---|---|---|
| llama3.2 | 94 % | 47 / 50 | 5141 ms |
| phi3 | 88 % | 44 / 50 | 12 780 ms |
| mistral | 86 % | 43 / 50 | 11 218 ms |
실패 사례
llama3.2가 실패한 경우:
- “빛의 속도는 km/s 단위로 얼마인가?” → 예상 299 792
- “브라질의 수도는 어디인가?” → 예상 Brasília
- “지구에 가장 가까운 별은 무엇인가?” → 예상 Sun
다음에 테스트한 내용
20개의 질문 모두에 대해 네 가지 프롬프트 기법을 적용해 더 똑똑한 프롬프트가 환각을 줄이는지 확인했습니다:
- 기본 (그냥 질문)
- 사고 사슬 (단계별로 생각)
- 자기 일관성 (5번 물어보고 다수 답 선택)
- RAG 기반 (답변 전에 위키피디아 컨텍스트 첨부)
결과: 네 가지 모두 95 % 점수를 받아, llama3.2가 구조화된 사실 QA에서 거의 한계에 도달했음을 의미합니다. 모델이 이미 사실을 알고 있을 때는 프롬프트 전략이 큰 변화를 주지 못합니다. 병목은 질문 난이도이며, 프롬프트 전략이 아닙니다.
코드와 데이터셋
- GitHub:
- 데이터셋:
데이터셋에는 어떤 LLM이든 벤치마크할 수 있는 50개의 질문이 포함되어 있습니다.
다음 단계
의료 분야 질문 200개로 확대하고, 고위험 사용 사례에서 신뢰성을 테스트할 예정입니다.