FP16에서 Q4까지: Ollama에서의 양자화 이해

발행: (2025년 12월 16일 오후 12:30 GMT+9)
2 min read
원문: Dev.to

Source: Dev.to

Ollama에서 FP16에서 Q4로: 양자화 이해를 위한 표지 이미지

양자화란 무엇인가요?

일반적인 LLM은 가중치를 float32(FP32)와 float16(FP16) 형태로 저장합니다.
양자화는 이러한 가중치를 더 적은 비트 수로 저장하고 연산하는 것을 말합니다.

일반적인 포맷

  • FP16 – 16비트
  • INT8 – 8비트
  • INT4 – 4비트
  • INT2 – 2비트

예시

0.12345678 (32-bit float)

더 적은 비트 수로 근사:

0.12 (8-bit/4-bit)

Ollama 양자화 포맷

모델 이름은 접미사에 양자화 포맷을 인코딩합니다. 예시:

llama3:8b-q4_K_M
mistral:7b-q8_0

포맷 표

포맷비트의미
Q2~2극단적인 압축, 품질 저하
Q4_04빠름, 품질 낮음
Q4_K4커널 최적화
Q4_K_M4최상의 Q4 균형
Q5_K_M5품질 향상, 메모리 사용 증가
Q6_K6FP16에 근접한 품질
Q8_08매우 높은 품질
FP1616원본에 거의 근접

마무리

이제 양자화가 무엇을 의미하는지, 그리고 그 값들이 실제로 무엇을 나타내는지 더 명확히 이해하셨길 바랍니다. 로컬에서 LLM을 실행하면 배울 수 있는 기회가 많이 생기며, 양자화는 그 중 하나에 불과합니다.

Back to Blog

관련 글

더 보기 »