[논문] APEX4: 인트라‑SM 연산 재조정을 통한 효율적인 순수 W4A4 LLM 추론
개요
W4A4 양자화는 INT4 Tensor Core의 완전 활용을 약속하지만, CUDA Core에서의 그룹 디퀀타이징 오버헤드 때문에 기존 시스템은 혼합 정밀도 폴백으로 전환되고 있습니다. 우리는 SM 내부 연산 균형이 이 병목을 어떻게 좌우하는지에 대한 최초의 체계적인 연구를 제시합니다. Ampere와 Ada 아키텍처의 네 GPU에 대해 제어된 벤치마크를 수행한 결과, Tensor Core와 CUDA Core의 처리량 비율($ρ$)이 주요 하드웨어 지표임을 확인했습니다: W4A4‑g128 커널은 RTX 3090($ρ=16$)에서 $2.0$—$2.5\times$ 속도 향상을 보이지만, 연산 결합 상황에서는 A100($ρ=64$)에서 $0.43$—$0.47\times$ 로 감소합니다. 이는 W4A4의 실현 가능성이 보편적인 것이 아니라 플랫폼에 따라 달라짐을 의미합니다. 이 발견을 바탕으로 우리는 APEX4를 개발했으며, $ρ$를 인식한 입자 크기 조정을 통해 순수 INT4 GEMM 커널을 공동 설계하여 CUDA Core 디퀀타이징 병목을 완화합니다. APEX4는 LLaMA‑2‑70B에서 FP16 대비 퍼플렉시티가 0.63만큼 차이 나는 수준을 달성하고, W4Ax Atom‑g128보다 제로샷 정확도에서 $4.0%$—$4.4%$ 더 우수합니다. 수정되지 않은 vLLM에 바로 적용할 수 있는 드롭‑인 방식으로 배포했을 때, L40S($ρ=8$)에서 최대 $1.66\times$, RTX 3090($ρ=16$)에서 $1.78\times$, A40($ρ=16$)에서 $2.09\times$의 엔드‑투‑엔드 속도 향상을 제공하며, 혼합 입자 크기 모드로 A100($ρ=64$)에서도 $1.20$—$1.40\times$ 수준으로 회복합니다.
핵심 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Hong Guo
- Nianhui Guo
- Weixing Wang
- Jona Otholt
- Christoph Meinel
- Haojin Yang
논문 정보
- arXiv ID: 2606.08761v1
- 분류: cs.DC, cs.AI
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드