나는 50개의 사실 질문에 3개의 로컬 LLM을 벤치마크했는데 - 여기 실패한 점들

발행: (2026년 4월 20일 PM 07:27 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

설정

  • 5개 카테고리에서 50개의 사실 질문
  • 3개 모델: llama3.2, mistral, phi3
  • Ollama를 사용해 100 % 로컬에서 실행 – API 키 불필요

순위표

모델정확도정답 / 전체평균 지연시간
llama3.294 %47 / 505141 ms
phi388 %44 / 5012 780 ms
mistral86 %43 / 5011 218 ms

실패 사례

llama3.2가 실패한 경우:

  • “빛의 속도는 km/s 단위로 얼마인가?” → 예상 299 792
  • “브라질의 수도는 어디인가?” → 예상 Brasília
  • “지구에 가장 가까운 별은 무엇인가?” → 예상 Sun

다음에 테스트한 내용

20개의 질문 모두에 대해 네 가지 프롬프트 기법을 적용해 더 똑똑한 프롬프트가 환각을 줄이는지 확인했습니다:

  • 기본 (그냥 질문)
  • 사고 사슬 (단계별로 생각)
  • 자기 일관성 (5번 물어보고 다수 답 선택)
  • RAG 기반 (답변 전에 위키피디아 컨텍스트 첨부)

결과: 네 가지 모두 95 % 점수를 받아, llama3.2가 구조화된 사실 QA에서 거의 한계에 도달했음을 의미합니다. 모델이 이미 사실을 알고 있을 때는 프롬프트 전략이 큰 변화를 주지 못합니다. 병목은 질문 난이도이며, 프롬프트 전략이 아닙니다.

코드와 데이터셋

  • GitHub:
  • 데이터셋:

데이터셋에는 어떤 LLM이든 벤치마크할 수 있는 50개의 질문이 포함되어 있습니다.

다음 단계

의료 분야 질문 200개로 확대하고, 고위험 사용 사례에서 신뢰성을 테스트할 예정입니다.

0 조회
Back to Blog

관련 글

더 보기 »