TorchAO vs ONNX Runtime:8 位量化基准
发布: (2026年2月23日 GMT+8 02:04)
2 分钟阅读
原文: Dev.to
Source: Dev.to
我在 TorchAO 和 ONNX Runtime 上运行了相同的 8 位量化 Llama 3.2 1B 模型,原本期待 ONNX 能像在移动推理中那样占据优势。TorchAO 在 4.2 秒 内完成了 512 token 的生成,而 ONNX Runtime 则用了 6.8 秒。
这在相同硬件、相同量化方案下产生了 38 % 的速度差异。下面是我尝试复现那些“ONNX 总是更快”观点时实际发生的情况。

图片作者 Steve Johnson 于 Pexels
没有人提及的设置:为何量化方法比框架更重要
大多数基准测试只比较框架,却忽略了量化校准才是决定成败的关键。我在 Llama 3.2 1B 上使用 W8A8(8 位权重,8 位激活),因为它足够小可以进行彻底的分析,又足够大能展示真实的推理模式。
以下是两个框架实现的量化公式:
$$ x_q = \text{round}\left(\frac{x}{s}\right) + z $$
在 TildAlice 上阅读完整文章。