나는 50개의 사실 질문에 3개의 로컬 LLM을 벤치마크했는데 - 여기 실패한 점들

발행: 2시간 전 (2026년 4월 20일 PM 07:27 GMT+9)

3 분 소요

원문: Dev.to

Source: Dev.to

설정

5개 카테고리에서 50개의 사실 질문
3개 모델: llama3.2, mistral, phi3
Ollama를 사용해 100 % 로컬에서 실행 – API 키 불필요

순위표

모델	정확도	정답 / 전체	평균 지연시간
llama3.2	94 %	47 / 50	5141 ms
phi3	88 %	44 / 50	12 780 ms
mistral	86 %	43 / 50	11 218 ms

실패 사례

llama3.2가 실패한 경우:

“빛의 속도는 km/s 단위로 얼마인가?” → 예상 299 792
“브라질의 수도는 어디인가?” → 예상 Brasília
“지구에 가장 가까운 별은 무엇인가?” → 예상 Sun

다음에 테스트한 내용

20개의 질문 모두에 대해 네 가지 프롬프트 기법을 적용해 더 똑똑한 프롬프트가 환각을 줄이는지 확인했습니다:

기본 (그냥 질문)
사고 사슬 (단계별로 생각)
자기 일관성 (5번 물어보고 다수 답 선택)
RAG 기반 (답변 전에 위키피디아 컨텍스트 첨부)

결과: 네 가지 모두 95 % 점수를 받아, llama3.2가 구조화된 사실 QA에서 거의 한계에 도달했음을 의미합니다. 모델이 이미 사실을 알고 있을 때는 프롬프트 전략이 큰 변화를 주지 못합니다. 병목은 질문 난이도이며, 프롬프트 전략이 아닙니다.

코드와 데이터셋

GitHub:
데이터셋:

데이터셋에는 어떤 LLM이든 벤치마크할 수 있는 50개의 질문이 포함되어 있습니다.

다음 단계

의료 분야 질문 200개로 확대하고, 고위험 사용 사례에서 신뢰성을 테스트할 예정입니다.

관련 글

LLM 벤치마크 재고: 점수만으로는 전체 이야기를 알 수 없는 이유

리더보드의 환상 모델 순위는 명확함을 제공한다. 모델 이름 옆에 있는 숫자는 결정적이고 거의 권위 있게 느껴지며, 팀들은 종종 이를 의존한다...

ChatGPT 작동 원리 (초보자를 위한 간단한 설명)

소개 만약 ChatGPT에 프롬프트를 입력했을 때 무슨 일이 일어나는지 궁금했던 적이 있다면, 이 기사에서는 가능한 가장 간단한 방식으로 이를 설명합니다. 프롬프트가 어떻게…

추론 최적화의 부상: 2026년을 형성하는 실제 LLM 인프라 트렌드

왜 Inference Optimization이 대세가 되고 있는가

270초 규칙: Claude Code API 비용을 90% 절감하는 스마트 방법

핵심 요약 - Anthropic의 프롬프트 캐시 TTL은 5분입니다. - Orchestrator 루프가 270초보다 빠르게 실행될 경우 전체 입력 토큰 비용의 약 10%를 지불합니다. What Cha...