TorchAO vs ONNX Runtime: 8비트 양자화 벤치마크
Source: Dev.to
저는 동일한 8‑bit 양자화 Llama 3.2 1B 모델을 TorchAO와 ONNX Runtime에 각각 적용해 보았습니다. 모바일 추론에서 보통 ONNX가 우세하리라 기대했지만, TorchAO는 4.2 초에 512‑토큰 생성을 마쳤고, ONNX Runtime은 6.8 초가 걸렸습니다.
동일한 하드웨어와 같은 양자화 스킴을 사용했음에도 **38 %**의 속도 차이가 발생했습니다. 여기서는 “ONNX가 항상 더 빠르다”는 블로그 포스트 절반 정도에서 흔히 듣는 이야기를 재현하려고 시도했을 때 실제로 일어난 일을 보여드립니다.

사진 제공: Steve Johnson / Pexels
아무도 이야기하지 않는 설정: 프레임워크보다 양자화 방법이 더 중요한 이유
대부분의 벤치마크는 프레임워크만 비교하고, 양자화 보정이 승패를 가른다는 점을 무시합니다. 저는 W8A8(8‑bit 가중치, 8‑bit 활성화) 방식을 Llama 3.2 1B에 사용했는데, 이는 프로파일링하기에 충분히 작으면서도 실제 추론 패턴을 보여줄 만큼은 큰 모델이기 때문입니다.
두 프레임워크가 구현하고 있는 양자화 공식은 다음과 같습니다:
$$ x_q = \text{round}\left(\frac{x}{s}\right) + z $$
전체 기사는 TildAlice에서 확인하세요.