[논문] TileFuse: AMD NPU용 효율적인 양자화 LLM 추론을 위한 혼합 정밀도 융합 커널 라이브러리

발행: (2026년 6월 10일 AM 03:33 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.11357v1

개요

디바이스 내 LLM 추론에 대한 수요가 증가함에 따라, 엣지 SoC는 성능과 에너지 효율을 향상시키기 위해 점점 더 많은 NPU를 통합하고 있습니다. 그러나 현재 클라이언트용 NPU에서 실제 LLM을 배포하는 것은 여전히 어려운 과제입니다. AWQ와 같은 널리 사용되는 양자화 포맷은 많은 기존 NPU 소프트웨어 스택에 깔끔하게 매핑되지 않으며, 이들 스택은 종종 폐쇄형이고 저수준 제어를 제한적으로만 제공합니다. 본 연구에서는 AMD XDNA2 NPU용으로 설계된 TileFuse라는 메탈에 가까운 혼합 정밀도 커널 라이브러리를 소개합니다. TileFuse는 양자화된 LLM 추론에서 트랜스포머 선형 레이어를 목표로 하며, AWQ 스타일의 W4A16 및 W8A16과 같은 실용적인 저비트 포맷을 XDNA2에 직접 적용합니다. 즉, 모델을 NPU 전용 양자화 스킴에 맞추어 재구성할 필요가 없습니다. TileFuse는 가중치 레이아웃, 메타데이터 배치, 혼합 정밀도 마이크로커널, 배열 수준 데이터 흐름을 공동 설계합니다. 구체적으로, 언패킹, 디양자화, GEMM/GEMV 실행을 하나의 커널 흐름으로 결합하고, 최대 32K까지의 GEMM 차원을 지원하는 인터리브된 프리‑타일링 레이아웃을 도입했으며, GEMV 데이터 흐름을 재설계하여 전체 4×8 AIE 배열을 활용합니다. 커널 수준 평가에서 TileFuse는 GEMM에서 최대 121.6%, GEMV에서 281%까지 성능을 향상시키며, 강력한 iGPU 기준 대비 GEMM에서 2배 이상의 성능 및 에너지 효율 향상을 달성했습니다. Ryzen AI 노트북을 이용한 엔드‑투‑엔드 LLM 실험에서는 TileFuse가 프리필링 지연 시간을 최대 2.0배 감소시키고 에너지 소비를 64.6% 이상 절감했습니다. 이러한 결과는 XDNA2가 AWQ 스타일 엣지 LLM 추론에 실용적인 대상임을 보여주며, 기존 양자화 방식을 네이티브 NPU에서 지원함으로써 NPU가 실제 클라이언트 환경에서 훨씬 더 활용 가능해질 수 있음을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

  • cs.DC
  • cs.AI
  • cs.AR
  • cs.PF

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.DC 분야의 발전에 기여합니다.

저자

  • Wesley Pang
  • Gregory Hyegang Jun
  • Feiyang Liu
  • Deming Chen

논문 정보

  • arXiv ID: 2606.11357v1
  • 분류: cs.DC, cs.AI, cs.AR, cs.PF
  • 발표일: 2026년 6월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »