从 FP16 到 Q4:深入了解 Ollama 中的量化
发布: (2025年12月16日 GMT+8 11:30)
2 min read
原文: Dev.to
Source: Dev.to

什么是量化?
普通的 LLM 将权重存储为 float32(FP32)和 float16(FP16)。
量化是指我们使用更少的位数来存储和计算这些权重。
常见格式
- FP16 – 16 位
- INT8 – 8 位
- INT4 – 4 位
- INT2 – 2 位
示例
0.12345678 (32-bit float)
近似为更少的位数:
0.12 (8-bit/4-bit)
Ollama 量化格式
模型名称在后缀中编码了量化格式,例如:
llama3:8b-q4_K_M
mistral:7b-q8_0
格式表
| 格式 | 位数 | 含义 |
|---|---|---|
| Q2 | ~2 | 极端压缩,质量差 |
| Q4_0 | 4 | 快速,质量较低 |
| Q4_K | 4 | 内核优化 |
| Q4_K_M | 4 | 最佳 Q4 折中 |
| Q5_K_M | 5 | 质量更好,需更多内存 |
| Q6_K | 6 | 接近 FP16 的质量 |
| Q8_0 | 8 | 非常高的质量 |
| FP16 | 16 | 几乎原始质量 |
总结
希望你现在对量化的含义以及这些数值实际代表的内容有了更清晰的认识。在本地运行 LLM 提供了许多学习机会,而量化只是其中之一。