[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화

발행: 2일 전 (2026년 2월 11일 오전 05:12 GMT+9)

12 분 소요

원문: arXiv

Source: arXiv - 2602.10262v1

개요

이 논문은 AMD 최신 MI300A 가속기의 성능 특이점에 대해 깊이 탐구합니다. 이 가속기는 CDNA3 GPU, 고대역폭 메모리, FP8 매트릭스 코어, 비동기 컴퓨트 엔진(ACE), 그리고 2:4 구조적 희소성을 결합하고 있습니다. 일련의 마이크로벤치마크를 실행함으로써, 저자들은 이러한 기능들이 실제 HPC 및 AI 워크로드에서 어떻게 동작하는지를 밝히고, 이를 최대한 활용하기 위한 구체적인 지침을 제공합니다.

Key Contributions

First‑ever execution‑centric profiling of FP8 matrix‑core pipelines on the MI300A, revealing occupancy limits and latency/throughput trade‑offs.
→ MI300A에서 FP8 매트릭스‑코어 파이프라인에 대한 최초의 실행‑중심 프로파일링을 수행하여 점유율 한계와 지연/처리량 트레이드‑오프를 밝혀냈습니다.
Quantitative analysis of ACE concurrency, showing how multiple compute streams share resources, where fairness breaks down, and how to tune launch parameters for optimal overlap.
→ ACE 동시성에 대한 정량적 분석을 통해 여러 컴퓨트 스트림이 자원을 어떻게 공유하는지, 공정성이 무너지는 지점, 그리고 최적의 겹침을 위해 런치 파라미터를 어떻게 조정하는지를 보여줍니다.
System‑level study of 2:4 structured sparsity, demonstrating context‑dependent speed‑ups (up to ~2×) and the conditions under which sparsity hurts performance.
→ 2:4 구조적 희소성에 대한 시스템‑레벨 연구로, 상황에 따라 최대 약 2배까지 속도 향상을 보여주며, 희소성이 성능을 저하시키는 조건도 제시합니다.
Case‑study evaluations on transformer‑style kernels, mixed‑precision GEMMs, and concurrent workloads that map the micro‑benchmark insights to end‑to‑end application behavior.
→ 트랜스포머‑스타일 커널, 혼합 정밀도 GEMM, 그리고 동시 워크로드에 대한 사례 연구 평가를 통해 마이크로‑벤치마크 인사이트를 엔드‑투‑엔드 애플리케이션 동작에 매핑합니다.
Practical scheduling heuristics (occupancy‑aware launch sizing, ACE throttling thresholds, sparsity enablement rules) that can be directly baked into compilers or runtime systems.
→ 컴파일러나 런타임 시스템에 직접 적용할 수 있는 실용적인 스케줄링 휴리스틱(점유율 인식 런치 크기 조정, ACE 스로틀링 임계값, 희소성 활성화 규칙)입니다.

Methodology

Micro‑benchmark suite – 저자들은 각 하드웨어 기능을 분리하는 작은 커널을 구축했습니다:
- 타일 크기, 스레드‑블록 수, 데이터 레이아웃을 다양하게 조정한 FP8 매트릭스‑코어 커널.
- 최대 8개의 독립 스트림을 실행하고 의존성 체인을 제어할 수 있는 ACE 테스트.
- 다양한 매트릭스 형태와 밀도에 대해 2:4 마스크를 켜고 끄는 구조적 희소성 커널.
Instrumentation – AMD의 ROCm 프로파일링 스택(rocprof, roctx)을 사용해 다음을 캡처했습니다:
- 코어 점유율, 웨이브프런트 시작 지연, 메모리 트래픽 메트릭.
- ACE 큐 깊이, 스톨 사이클, 스트림 간 간섭.
- 희소 실행과 밀집 실행에 대한 이론적 피크 대비 실제 FLOP 수.
Workload mapping – 마이크로‑벤치마크를 세 가지 대표 워크로드에 삽입했습니다:
- Transformer attention (FP8‑주도, 대규모 매트릭스 곱).
- Mixed‑precision GEMM (FP16 + FP8, 훈련 파이프라인에서 일반적).
- Concurrent inference (동일 GPU를 공유하는 다수의 독립 요청).
Statistical analysis – 각 실험을 30회 이상 반복해 변동성을 포착했으며, 저자들은 회귀 분석을 사용해 점유율, ACE 깊이, 희소성 비율이 처리량 및 지연에 미치는 영향을 모델링했습니다.

결과 및 발견

기능	핵심 지표	관찰
FP8 매트릭스 코어	피크 점유율 ≈ 85 % (이를 초과하면 웨이브프론트 정체가 급격히 증가)	작은 타일 크기 (64×64)가 최상의 활용도를 제공; 큰 타일은 레지스터 압력으로 인해 연산을 낭비한다.
ACE 동시성	최대 4개의 스트림까지 거의 선형적인 처리량을 달성; 4개 초과 스트림은 15 % 이상의 공정성 손실을 초래한다	전체 웨이브프론트 수가 ~12 k를 초과하면 ACE가 스로틀링; 4‑5개의 동시 커널이라는 “소프트 제한”이 지연시간과 공정성을 모두 최적화한다.
2:4 구조적 희소성	속도 향상은 1.2× (조밀한 매트릭스)에서 2.0× (≥ 70 % 제로 패턴 준수)까지 다양하다	비정형 형태이거나 마스크가 추가 패딩을 요구할 경우 희소성 이점이 사라지고, 마스크 처리 오버헤드가 이득을 상쇄할 수 있다.
Transformer 사례 연구	FP8 + ACE (4 스트림) + 희소성 활성화 시 종단 지연시간이 23 % 감소	세 가지 기능의 결합 효과가 마이크로 벤치마크 예측과 일치하여 모델 적용 가능성을 확인한다.
혼합 정밀도 GEMM	FP8 매트릭스 코어와 점유율 인식 런치를 사용할 때 FP16 전용 대비 처리량이 1.8× 증가	점유율 상한 이하로 유지하도록 커널 크기를 적절히 조정하는 것이 중요; 그렇지 않으면 성능이 FP16 수준으로 회귀한다.
동시 추론	ACE 인식 스케줄링을 사용해 지연 시간 변동성이 30 % 감소	동시 스트림을 4개로 제한하고 런치를 순차적으로 배치하면 꼬리 지연 시간이 훨씬 예측 가능해진다.

실용적 함의

커널 개발자는 64×64 또는 128×128 FP8 타일을 목표로 하고, 매트릭스‑코어 점유율의 “sweet spot”을 유지하기 위해 활성 웨이브프런트를 ~10 k 이하로 유지해야 합니다.
**런타임 시스템(예: ROCm, TensorRT, PyTorch XLA)**은 간단한 휴리스틱을 삽입할 수 있습니다: 전체 대기 중인 커널 수 > 4이면, 새로운 실행을 지연하거나 작업을 분할하여 ACE 공정성 붕괴를 방지합니다.
컴파일러는 자연스럽게 ≥ 70 % 제로 패턴을 생성하는 레이어(예: 프루닝 후 트랜스포머)에 대해 2:4 구조적 희소성을 자동으로 활성화하고, 하드웨어 마스크와 형태가 일치할 때만 패딩을 삽입할 수 있습니다.
멀티 테넌트 GPU 노드용 스케줄러 설계자는 논문의 점유율 인식 모델을 사용하여 테일 레이턴시를 예측하고 자원을 보다 결정론적으로 할당할 수 있습니다. 이는 대규모 추론 워크로드를 서비스하는 데 필수적입니다.
혼합 정밀도 학습 파이프라인은 FP16 GEMM을 FP8 매트릭스‑코어 호출로 교체하여 모델 정확도를 손상시키지 않으면서 최대 2× 처리량을 얻을 수 있습니다(저자들은 이를 BERT‑base 파인‑튜닝에서 검증했습니다).

전반적으로, 이 연구 결과는 개발자에게 MI300A의 각 고급 기능을 언제 그리고 어떻게 활성화할지에 대한 구체적인 체크리스트를 제공하여, “블랙‑박스” 가속기를 조정 가능한 성능 노브로 전환합니다.

제한 사항 및 향후 작업

이 연구는 마이크로‑벤치마크와 세 가지 특정 워크로드에 초점을 맞추고 있습니다; 보다 넓은 AI 모델(예: diffusion, 그래프 신경망)은 다른 희소성 패턴이나 메모리 사용량을 보일 수 있습니다.
전력 및 열 제한은 측정되지 않았으며, 지속적인 높은 점유율은 장시간 실행 시 스로틀링을 유발할 수 있습니다.
저자들은 향후 ROCm 릴리스에서 더 세분화된 ACE 제어가 공개될 수 있다고 언급했으며, 이는 최적의 동시성 임계값을 변경할 수 있습니다.
방법론을 멀티‑노드 MI300A 클러스터(NVLink/Infinity Fabric 인터커넥트)로 확장하고 통신‑오버랩을 평가하는 것이 자연스러운 다음 단계가 될 것입니다.

핵심: 이 논문은 MI300A의 최신 하드웨어 트릭을 밝혀내고, 개발자들에게 차세대 HPC 및 AI 워크로드에 대한 최상의 성능을 끌어낼 수 있는 실용적인 규칙을 제공합니다.

저자

Aaron Jarmusch
Connor Vitz
Sunita Chandrasekaran

논문 정보

arXiv ID: 2602.10262v1
분류: cs.DC, cs.AR
출판일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화

개요

Key Contributions

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] OServe: 공간-시간 워크로드 오케스트레이션을 통한 LLM 서빙 가속화

[Paper] Min‑Sum 균일 커버리지 문제 by 자율 모바일 로봇

[Paper] 네트워크 아키텍처에 대한 Global Distributed Protocols의 구현 가능성

[Paper] 현대 MoE 모델 및 하드웨어 시스템을 위한 Attention-FFN 분리의 과제 공개