[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화

발행: (2026년 2월 11일 오전 05:12 GMT+9)
12 분 소요
원문: arXiv

Source: arXiv - 2602.10262v1

개요

이 논문은 AMD 최신 MI300A 가속기의 성능 특이점에 대해 깊이 탐구합니다. 이 가속기는 CDNA3 GPU, 고대역폭 메모리, FP8 매트릭스 코어, 비동기 컴퓨트 엔진(ACE), 그리고 2:4 구조적 희소성을 결합하고 있습니다. 일련의 마이크로벤치마크를 실행함으로써, 저자들은 이러한 기능들이 실제 HPC 및 AI 워크로드에서 어떻게 동작하는지를 밝히고, 이를 최대한 활용하기 위한 구체적인 지침을 제공합니다.

Key Contributions

  • First‑ever execution‑centric profiling of FP8 matrix‑core pipelines on the MI300A, revealing occupancy limits and latency/throughput trade‑offs.
    → MI300A에서 FP8 매트릭스‑코어 파이프라인에 대한 최초의 실행‑중심 프로파일링을 수행하여 점유율 한계와 지연/처리량 트레이드‑오프를 밝혀냈습니다.

  • Quantitative analysis of ACE concurrency, showing how multiple compute streams share resources, where fairness breaks down, and how to tune launch parameters for optimal overlap.
    → ACE 동시성에 대한 정량적 분석을 통해 여러 컴퓨트 스트림이 자원을 어떻게 공유하는지, 공정성이 무너지는 지점, 그리고 최적의 겹침을 위해 런치 파라미터를 어떻게 조정하는지를 보여줍니다.

  • System‑level study of 2:4 structured sparsity, demonstrating context‑dependent speed‑ups (up to ~2×) and the conditions under which sparsity hurts performance.
    → 2:4 구조적 희소성에 대한 시스템‑레벨 연구로, 상황에 따라 최대 약 2배까지 속도 향상을 보여주며, 희소성이 성능을 저하시키는 조건도 제시합니다.

  • Case‑study evaluations on transformer‑style kernels, mixed‑precision GEMMs, and concurrent workloads that map the micro‑benchmark insights to end‑to‑end application behavior.
    → 트랜스포머‑스타일 커널, 혼합 정밀도 GEMM, 그리고 동시 워크로드에 대한 사례 연구 평가를 통해 마이크로‑벤치마크 인사이트를 엔드‑투‑엔드 애플리케이션 동작에 매핑합니다.

  • Practical scheduling heuristics (occupancy‑aware launch sizing, ACE throttling thresholds, sparsity enablement rules) that can be directly baked into compilers or runtime systems.
    → 컴파일러나 런타임 시스템에 직접 적용할 수 있는 실용적인 스케줄링 휴리스틱(점유율 인식 런치 크기 조정, ACE 스로틀링 임계값, 희소성 활성화 규칙)입니다.

Methodology

  1. Micro‑benchmark suite – 저자들은 각 하드웨어 기능을 분리하는 작은 커널을 구축했습니다:

    • 타일 크기, 스레드‑블록 수, 데이터 레이아웃을 다양하게 조정한 FP8 매트릭스‑코어 커널.
    • 최대 8개의 독립 스트림을 실행하고 의존성 체인을 제어할 수 있는 ACE 테스트.
    • 다양한 매트릭스 형태와 밀도에 대해 2:4 마스크를 켜고 끄는 구조적 희소성 커널.
  2. Instrumentation – AMD의 ROCm 프로파일링 스택(rocprof, roctx)을 사용해 다음을 캡처했습니다:

    • 코어 점유율, 웨이브프런트 시작 지연, 메모리 트래픽 메트릭.
    • ACE 큐 깊이, 스톨 사이클, 스트림 간 간섭.
    • 희소 실행과 밀집 실행에 대한 이론적 피크 대비 실제 FLOP 수.
  3. Workload mapping – 마이크로‑벤치마크를 세 가지 대표 워크로드에 삽입했습니다:

    • Transformer attention (FP8‑주도, 대규모 매트릭스 곱).
    • Mixed‑precision GEMM (FP16 + FP8, 훈련 파이프라인에서 일반적).
    • Concurrent inference (동일 GPU를 공유하는 다수의 독립 요청).
  4. Statistical analysis – 각 실험을 30회 이상 반복해 변동성을 포착했으며, 저자들은 회귀 분석을 사용해 점유율, ACE 깊이, 희소성 비율이 처리량 및 지연에 미치는 영향을 모델링했습니다.

결과 및 발견

기능핵심 지표관찰
FP8 매트릭스 코어피크 점유율 ≈ 85 % (이를 초과하면 웨이브프론트 정체가 급격히 증가)작은 타일 크기 (64×64)가 최상의 활용도를 제공; 큰 타일은 레지스터 압력으로 인해 연산을 낭비한다.
ACE 동시성최대 4개의 스트림까지 거의 선형적인 처리량을 달성; 4개 초과 스트림은 15 % 이상의 공정성 손실을 초래한다전체 웨이브프론트 수가 ~12 k를 초과하면 ACE가 스로틀링; 4‑5개의 동시 커널이라는 “소프트 제한”이 지연시간과 공정성을 모두 최적화한다.
2:4 구조적 희소성속도 향상은 1.2× (조밀한 매트릭스)에서 2.0× (≥ 70 % 제로 패턴 준수)까지 다양하다비정형 형태이거나 마스크가 추가 패딩을 요구할 경우 희소성 이점이 사라지고, 마스크 처리 오버헤드가 이득을 상쇄할 수 있다.
Transformer 사례 연구FP8 + ACE (4 스트림) + 희소성 활성화 시 종단 지연시간이 23 % 감소세 가지 기능의 결합 효과가 마이크로 벤치마크 예측과 일치하여 모델 적용 가능성을 확인한다.
혼합 정밀도 GEMMFP8 매트릭스 코어와 점유율 인식 런치를 사용할 때 FP16 전용 대비 처리량이 1.8× 증가점유율 상한 이하로 유지하도록 커널 크기를 적절히 조정하는 것이 중요; 그렇지 않으면 성능이 FP16 수준으로 회귀한다.
동시 추론ACE 인식 스케줄링을 사용해 지연 시간 변동성이 30 % 감소동시 스트림을 4개로 제한하고 런치를 순차적으로 배치하면 꼬리 지연 시간이 훨씬 예측 가능해진다.

실용적 함의

  • 커널 개발자64×64 또는 128×128 FP8 타일을 목표로 하고, 매트릭스‑코어 점유율의 “sweet spot”을 유지하기 위해 활성 웨이브프런트를 ~10 k 이하로 유지해야 합니다.
  • **런타임 시스템(예: ROCm, TensorRT, PyTorch XLA)**은 간단한 휴리스틱을 삽입할 수 있습니다: 전체 대기 중인 커널 수 > 4이면, 새로운 실행을 지연하거나 작업을 분할하여 ACE 공정성 붕괴를 방지합니다.
  • 컴파일러는 자연스럽게 ≥ 70 % 제로 패턴을 생성하는 레이어(예: 프루닝 후 트랜스포머)에 대해 2:4 구조적 희소성을 자동으로 활성화하고, 하드웨어 마스크와 형태가 일치할 때만 패딩을 삽입할 수 있습니다.
  • 멀티 테넌트 GPU 노드용 스케줄러 설계자는 논문의 점유율 인식 모델을 사용하여 테일 레이턴시를 예측하고 자원을 보다 결정론적으로 할당할 수 있습니다. 이는 대규모 추론 워크로드를 서비스하는 데 필수적입니다.
  • 혼합 정밀도 학습 파이프라인은 FP16 GEMM을 FP8 매트릭스‑코어 호출로 교체하여 모델 정확도를 손상시키지 않으면서 최대 2× 처리량을 얻을 수 있습니다(저자들은 이를 BERT‑base 파인‑튜닝에서 검증했습니다).

전반적으로, 이 연구 결과는 개발자에게 MI300A의 각 고급 기능을 언제 그리고 어떻게 활성화할지에 대한 구체적인 체크리스트를 제공하여, “블랙‑박스” 가속기를 조정 가능한 성능 노브로 전환합니다.

제한 사항 및 향후 작업

  • 이 연구는 마이크로‑벤치마크와 세 가지 특정 워크로드에 초점을 맞추고 있습니다; 보다 넓은 AI 모델(예: diffusion, 그래프 신경망)은 다른 희소성 패턴이나 메모리 사용량을 보일 수 있습니다.
  • 전력 및 열 제한은 측정되지 않았으며, 지속적인 높은 점유율은 장시간 실행 시 스로틀링을 유발할 수 있습니다.
  • 저자들은 향후 ROCm 릴리스에서 더 세분화된 ACE 제어가 공개될 수 있다고 언급했으며, 이는 최적의 동시성 임계값을 변경할 수 있습니다.
  • 방법론을 멀티‑노드 MI300A 클러스터(NVLink/Infinity Fabric 인터커넥트)로 확장하고 통신‑오버랩을 평가하는 것이 자연스러운 다음 단계가 될 것입니다.

핵심: 이 논문은 MI300A의 최신 하드웨어 트릭을 밝혀내고, 개발자들에게 차세대 HPC 및 AI 워크로드에 대한 최상의 성능을 끌어낼 수 있는 실용적인 규칙을 제공합니다.

저자

  • Aaron Jarmusch
  • Connor Vitz
  • Sunita Chandrasekaran

논문 정보

  • arXiv ID: 2602.10262v1
  • 분류: cs.DC, cs.AR
  • 출판일: 2026년 2월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »