[Paper] FalconGEMM: 낮은 복잡도 행렬 곱셈으로 하드웨어 피크 초과

발행: (2026년 5월 7일 PM 08:41 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2605.06057v1

개요

이 논문은 FalconGEMM이라는 크로스‑플랫폼 프레임워크를 소개합니다. 이 프레임워크는 “낮은 복잡도” 행렬 곱셈 알고리즘(LCMA)을 실제 딥러닝 워크로드에 적용 가능하도록 만들며, 자동으로 알고리즘을 생성·최적화·선택하여 주어진 하드웨어 목표에 가장 적합한 방식을 제공합니다. FalconGEMM은 GPU와 CPU 모두에서 기존 GEMM 라이브러리 및 다른 LCMA 솔루션의 성능을 지속적으로 능가합니다.

주요 기여

  • Portable Deployment Module – 하드웨어‑특화 코드를 생성하여 동일한 LCMA가 GPU(H100, A100), ARM CPU, x86 CPU에서 수동 재조정 없이 실행될 수 있도록 함.
  • Group‑Parallel Optimizations – 메모리 대역폭 압력을 줄이고 연산 활용도를 극대화하는 새로운 온‑칩 데이터 재사용 및 병렬 자원 스케줄링.
  • Lightweight Decision Module – 모든 행렬 형태와 하드웨어 프로파일에 대해 가장 빠른 알고리즘을 예측하는 분석 성능 모델로, 런타임 선택을 가능하게 함.
  • Comprehensive Evaluation – 최신 GEMM 라이브러리(cuBLAS, CUTLASS, Intel MKL) 대비 7.6 %–17.9 %의 속도 향상과 AlphaTensor와 같은 경쟁 LCMA 프레임워크 대비 12.4 %–55.6 %의 향상을 대규모 언어 모델(LLM) 학습 및 추론 작업에서 입증.

Methodology

  1. Algorithm Catalog – 저자들은 고전적인 O(n³) GEMM보다 산술 복잡도가 낮은 LCMAs(예: Strassen‑유사, Winograd‑기반, 그리고 최신 텐서‑분해 방법) 모음을 수집합니다.
  2. Code Generation – 배포 엔진은 대상 하드웨어의 명령어 집합, 메모리 계층 구조, 그리고 병렬 실행 모델을 파싱한 뒤 최적화된 커널(CUDA, HIP, AVX‑512, NEON 등)을 생성합니다.
  3. Group‑Parallel Optimizations – 커널은 “그룹”으로 조직되어 중간 결과를 온‑칩 버퍼(공유 메모리, L1 캐시, 혹은 레지스터)에서 공유합니다. 이는 동일한 부분 곱을 DRAM에서 가져오는 횟수를 감소시킵니다.
  4. Analytical Performance Model – 의사 결정 모듈은 연산 처리량, 메모리 대역폭, 그리고 LCMA의 재귀 깊이에 따른 추가 오버헤드를 고려하여 실행 시간을 추정합니다. 그런 다음 예측된 시간을 최소화하는 알고리즘(및 타일링 파라미터)을 선택합니다.
  5. Run‑time Dispatch – 추론이나 학습이 시작될 때 FalconGEMM은 실제 행렬 크기와 하드웨어 통계를 사용해 모델에 질의하고, 최적의 커널을 선택한 뒤 개발자의 개입 없이 실행합니다.

Results & Findings

PlatformData TypeSpeedup vs. cuBLAS / MKLSpeedup vs. AlphaTensor
NVIDIA H100FP16+15.2 %+32.8 %
NVIDIA A100BF16+12.7 %+28.4 %
ARM NeoverseFP32+9.3 %+18.5 %
Intel Xeon (AVX‑512)FP64+7.6 %+12.4 %
  • Peak‑breaking performance: 여러 LLM 레이어(예: 트랜스포머 어텐션 및 피드‑포워드 블록)에서 FalconGEMM은 연산 작업량을 알고리즘적으로 감소시켜 기본 하드웨어의 이론적 피크 FLOPs를 초과합니다.
  • Robustness across shapes: 의사결정 모듈은 작은 정방형 행렬에 대해서는 클래식 GEMM을, 토큰‑단위 연산에서 흔히 나타나는 길고 얇거나 넓고 짧은 행렬에 대해서는 LCMAs를 올바르게 전환합니다.
  • Low overhead: 분석 모델은 실행 시간 오버헤드를 < 0.5 % 이하로 추가하므로, 배치 학습과 지연 시간이 중요한 추론 모두에 적합한 프레임워크가 됩니다.

실용적인 시사점

  • LLM Training Pipelines – 더 빠른 행렬 곱셈은 GPU 사용 시간을 직접 감소시켜 대규모 모델 사전 훈련에 필요한 클라우드 비용을 낮춥니다.
  • Edge Inference – ARM 기반 서버나 모바일 SoC에서도 FalconGEMM은 배터리 수명을 희생하지 않고 온‑디바이스 언어 모델에 더 높은 처리량을 제공합니다.
  • Framework Integration – 배포 모듈이 표준 CUDA/HIP/AVX 커널을 생성하므로 기존 딥러닝 라이브러리(Pytorch, TensorFlow, JAX)는 얇은 래퍼를 통해 GEMM 호출을 FalconGEMM 커널로 바로 교체할 수 있습니다.
  • Hardware‑agnostic Optimization – GPU와 CPU가 혼합된 이종 인프라를 보유한 기업도 별도의 손수 튜닝한 커널이 필요 없으며, FalconGEMM이 자동으로 적응해 모델 배포용 CI/CD 파이프라인을 단순화합니다.

제한 사항 및 향후 작업

  • 수치 안정성 – 일부 LCMA(예: Strassen‑type)는 추가적인 반올림 오차를 발생시킵니다; 논문에서는 FP64에 대해 약간의 정밀도 손실을 언급했으며, 이는 특정 과학 워크로드에서는 허용되지 않을 수 있습니다.
  • 메모리 사용량 – 재귀 알고리즘은 추가적인 임시 버퍼를 필요로 하며, 메모리가 제한된 장치에서는 처리 가능한 행렬 크기가 제한될 수 있습니다.
  • 모델 일반화 – 분석 성능 모델은 대표적인 GPU/CPU 집합을 기준으로 보정되었습니다; 새로운 가속기(TPU, 맞춤형 ASIC 등)로 확장하려면 추가 프로파일링이 필요합니다.
  • 향후 방향 – 저자들은 혼합 정밀도 자동 튜닝을 도입하고, 런타임 오류 메트릭에 기반한 적응형 재귀 깊이를 탐색하며, 프레임워크를 오픈소스화하여 커뮤니티 주도의 커널 확장을 촉진할 계획입니다.

저자

  • Honglin Zhu
  • Jiaping Cao
  • Jiang Shao
  • Siyuan Feng
  • Qian Qiu
  • Peng Chen
  • Xu Zhang
  • Yixian Zhou
  • Man Lung Yiu
  • Guang Ji
  • Minwen Deng
  • Wenxi Zhu
  • Jintao Meng

논문 정보

  • arXiv ID: 2605.06057v1
  • 분류: cs.DC, cs.MS
  • 출판일: 2026년 5월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »