FP16에서 Q4까지: Ollama에서의 양자화 이해
발행: (2025년 12월 16일 오후 12:30 GMT+9)
2 min read
원문: Dev.to
Source: Dev.to

양자화란 무엇인가요?
일반적인 LLM은 가중치를 float32(FP32)와 float16(FP16) 형태로 저장합니다.
양자화는 이러한 가중치를 더 적은 비트 수로 저장하고 연산하는 것을 말합니다.
일반적인 포맷
- FP16 – 16비트
- INT8 – 8비트
- INT4 – 4비트
- INT2 – 2비트
예시
0.12345678 (32-bit float)
더 적은 비트 수로 근사:
0.12 (8-bit/4-bit)
Ollama 양자화 포맷
모델 이름은 접미사에 양자화 포맷을 인코딩합니다. 예시:
llama3:8b-q4_K_M
mistral:7b-q8_0
포맷 표
| 포맷 | 비트 | 의미 |
|---|---|---|
| Q2 | ~2 | 극단적인 압축, 품질 저하 |
| Q4_0 | 4 | 빠름, 품질 낮음 |
| Q4_K | 4 | 커널 최적화 |
| Q4_K_M | 4 | 최상의 Q4 균형 |
| Q5_K_M | 5 | 품질 향상, 메모리 사용 증가 |
| Q6_K | 6 | FP16에 근접한 품질 |
| Q8_0 | 8 | 매우 높은 품질 |
| FP16 | 16 | 원본에 거의 근접 |
마무리
이제 양자화가 무엇을 의미하는지, 그리고 그 값들이 실제로 무엇을 나타내는지 더 명확히 이해하셨길 바랍니다. 로컬에서 LLM을 실행하면 배울 수 있는 기회가 많이 생기며, 양자화는 그 중 하나에 불과합니다.