TorchAO vs ONNX Runtime：8 位量化基准

发布: 3天前 (2026年2月23日 GMT+8 02:04)

2 分钟阅读

Source: Dev.to

我在 TorchAO 和 ONNX Runtime 上运行了相同的 8 位量化 Llama 3.2 1B 模型，原本期待 ONNX 能像在移动推理中那样占据优势。TorchAO 在 4.2 秒 内完成了 512 token 的生成，而 ONNX Runtime 则用了 6.8 秒。

这在相同硬件、相同量化方案下产生了 38 % 的速度差异。下面是我尝试复现那些“ONNX 总是更快”观点时实际发生的情况。

一幅数字抽象图像，包含带渐变背景的 3D 几何形状。

图片作者 Steve Johnson 于 Pexels

没有人提及的设置：为何量化方法比框架更重要

大多数基准测试只比较框架，却忽略了量化校准才是决定成败的关键。我在 Llama 3.2 1B 上使用 W8A8（8 位权重，8 位激活），因为它足够小可以进行彻底的分析，又足够大能展示真实的推理模式。

以下是两个框架实现的量化公式：

$$ x_q = \text{round}\left(\frac{x}{s}\right) + z $$

在 TildAlice 上阅读完整文章。