[논문] APEX4: 인트라‑SM 연산 재조정을 통한 효율적인 순수 W4A4 LLM 추론

발행: (2026년 6월 8일 AM 03:01 GMT+9)
3 분 소요
원문: arXiv

개요

W4A4 양자화는 INT4 Tensor Core의 완전 활용을 약속하지만, CUDA Core에서의 그룹 디퀀타이징 오버헤드 때문에 기존 시스템은 혼합 정밀도 폴백으로 전환되고 있습니다. 우리는 SM 내부 연산 균형이 이 병목을 어떻게 좌우하는지에 대한 최초의 체계적인 연구를 제시합니다. Ampere와 Ada 아키텍처의 네 GPU에 대해 제어된 벤치마크를 수행한 결과, Tensor Core와 CUDA Core의 처리량 비율($ρ$)이 주요 하드웨어 지표임을 확인했습니다: W4A4‑g128 커널은 RTX 3090($ρ=16$)에서 $2.0$—$2.5\times$ 속도 향상을 보이지만, 연산 결합 상황에서는 A100($ρ=64$)에서 $0.43$—$0.47\times$ 로 감소합니다. 이는 W4A4의 실현 가능성이 보편적인 것이 아니라 플랫폼에 따라 달라짐을 의미합니다. 이 발견을 바탕으로 우리는 APEX4를 개발했으며, $ρ$를 인식한 입자 크기 조정을 통해 순수 INT4 GEMM 커널을 공동 설계하여 CUDA Core 디퀀타이징 병목을 완화합니다. APEX4는 LLaMA‑2‑70B에서 FP16 대비 퍼플렉시티가 0.63만큼 차이 나는 수준을 달성하고, W4Ax Atom‑g128보다 제로샷 정확도에서 $4.0%$—$4.4%$ 더 우수합니다. 수정되지 않은 vLLM에 바로 적용할 수 있는 드롭‑인 방식으로 배포했을 때, L40S($ρ=8$)에서 최대 $1.66\times$, RTX 3090($ρ=16$)에서 $1.78\times$, A40($ρ=16$)에서 $2.09\times$의 엔드‑투‑엔드 속도 향상을 제공하며, 혼합 입자 크기 모드로 A100($ρ=64$)에서도 $1.20$—$1.40\times$ 수준으로 회복합니다.

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.DC
  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.DC 분야의 발전에 기여합니다.

저자

  • Hong Guo
  • Nianhui Guo
  • Weixing Wang
  • Jona Otholt
  • Christoph Meinel
  • Haojin Yang

논문 정보

  • arXiv ID: 2606.08761v1
  • 분류: cs.DC, cs.AI
  • 발표일: 2026년 6월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »