从 FP16 到 Q4:深入了解 Ollama 中的量化

发布: (2025年12月16日 GMT+8 11:30)
2 min read
原文: Dev.to

Source: Dev.to

从 FP16 到 Q4:Ollama 中量化的理解的封面图片

什么是量化?

普通的 LLM 将权重存储为 float32(FP32)和 float16(FP16)。
量化是指我们使用更少的位数来存储和计算这些权重。

常见格式

  • FP16 – 16 位
  • INT8 – 8 位
  • INT4 – 4 位
  • INT2 – 2 位

示例

0.12345678 (32-bit float)

近似为更少的位数:

0.12 (8-bit/4-bit)

Ollama 量化格式

模型名称在后缀中编码了量化格式,例如:

llama3:8b-q4_K_M
mistral:7b-q8_0

格式表

格式位数含义
Q2~2极端压缩,质量差
Q4_04快速,质量较低
Q4_K4内核优化
Q4_K_M4最佳 Q4 折中
Q5_K_M5质量更好,需更多内存
Q6_K6接近 FP16 的质量
Q8_08非常高的质量
FP1616几乎原始质量

总结

希望你现在对量化的含义以及这些数值实际代表的内容有了更清晰的认识。在本地运行 LLM 提供了许多学习机会,而量化只是其中之一。

Back to Blog

相关文章

阅读更多 »