[Paper] FalconGEMM: 낮은 복잡도 행렬 곱셈으로 하드웨어 피크 초과

발행: 4일 전 (2026년 5월 7일 PM 08:41 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.06057v1

개요

이 논문은 FalconGEMM이라는 크로스‑플랫폼 프레임워크를 소개합니다. 이 프레임워크는 “낮은 복잡도” 행렬 곱셈 알고리즘(LCMA)을 실제 딥러닝 워크로드에 적용 가능하도록 만들며, 자동으로 알고리즘을 생성·최적화·선택하여 주어진 하드웨어 목표에 가장 적합한 방식을 제공합니다. FalconGEMM은 GPU와 CPU 모두에서 기존 GEMM 라이브러리 및 다른 LCMA 솔루션의 성능을 지속적으로 능가합니다.

주요 기여

Portable Deployment Module – 하드웨어‑특화 코드를 생성하여 동일한 LCMA가 GPU(H100, A100), ARM CPU, x86 CPU에서 수동 재조정 없이 실행될 수 있도록 함.
Group‑Parallel Optimizations – 메모리 대역폭 압력을 줄이고 연산 활용도를 극대화하는 새로운 온‑칩 데이터 재사용 및 병렬 자원 스케줄링.
Lightweight Decision Module – 모든 행렬 형태와 하드웨어 프로파일에 대해 가장 빠른 알고리즘을 예측하는 분석 성능 모델로, 런타임 선택을 가능하게 함.
Comprehensive Evaluation – 최신 GEMM 라이브러리(cuBLAS, CUTLASS, Intel MKL) 대비 7.6 %–17.9 %의 속도 향상과 AlphaTensor와 같은 경쟁 LCMA 프레임워크 대비 12.4 %–55.6 %의 향상을 대규모 언어 모델(LLM) 학습 및 추론 작업에서 입증.

Methodology

Algorithm Catalog – 저자들은 고전적인 O(n³) GEMM보다 산술 복잡도가 낮은 LCMAs(예: Strassen‑유사, Winograd‑기반, 그리고 최신 텐서‑분해 방법) 모음을 수집합니다.
Code Generation – 배포 엔진은 대상 하드웨어의 명령어 집합, 메모리 계층 구조, 그리고 병렬 실행 모델을 파싱한 뒤 최적화된 커널(CUDA, HIP, AVX‑512, NEON 등)을 생성합니다.
Group‑Parallel Optimizations – 커널은 “그룹”으로 조직되어 중간 결과를 온‑칩 버퍼(공유 메모리, L1 캐시, 혹은 레지스터)에서 공유합니다. 이는 동일한 부분 곱을 DRAM에서 가져오는 횟수를 감소시킵니다.
Analytical Performance Model – 의사 결정 모듈은 연산 처리량, 메모리 대역폭, 그리고 LCMA의 재귀 깊이에 따른 추가 오버헤드를 고려하여 실행 시간을 추정합니다. 그런 다음 예측된 시간을 최소화하는 알고리즘(및 타일링 파라미터)을 선택합니다.
Run‑time Dispatch – 추론이나 학습이 시작될 때 FalconGEMM은 실제 행렬 크기와 하드웨어 통계를 사용해 모델에 질의하고, 최적의 커널을 선택한 뒤 개발자의 개입 없이 실행합니다.

Results & Findings

Platform	Data Type	Speedup vs. cuBLAS / MKL	Speedup vs. AlphaTensor
NVIDIA H100	FP16	+15.2 %	+32.8 %
NVIDIA A100	BF16	+12.7 %	+28.4 %
ARM Neoverse	FP32	+9.3 %	+18.5 %
Intel Xeon (AVX‑512)	FP64	+7.6 %	+12.4 %

Peak‑breaking performance: 여러 LLM 레이어(예: 트랜스포머 어텐션 및 피드‑포워드 블록)에서 FalconGEMM은 연산 작업량을 알고리즘적으로 감소시켜 기본 하드웨어의 이론적 피크 FLOPs를 초과합니다.
Robustness across shapes: 의사결정 모듈은 작은 정방형 행렬에 대해서는 클래식 GEMM을, 토큰‑단위 연산에서 흔히 나타나는 길고 얇거나 넓고 짧은 행렬에 대해서는 LCMAs를 올바르게 전환합니다.
Low overhead: 분석 모델은 실행 시간 오버헤드를 < 0.5 % 이하로 추가하므로, 배치 학습과 지연 시간이 중요한 추론 모두에 적합한 프레임워크가 됩니다.

실용적인 시사점

LLM Training Pipelines – 더 빠른 행렬 곱셈은 GPU 사용 시간을 직접 감소시켜 대규모 모델 사전 훈련에 필요한 클라우드 비용을 낮춥니다.
Edge Inference – ARM 기반 서버나 모바일 SoC에서도 FalconGEMM은 배터리 수명을 희생하지 않고 온‑디바이스 언어 모델에 더 높은 처리량을 제공합니다.
Framework Integration – 배포 모듈이 표준 CUDA/HIP/AVX 커널을 생성하므로 기존 딥러닝 라이브러리(Pytorch, TensorFlow, JAX)는 얇은 래퍼를 통해 GEMM 호출을 FalconGEMM 커널로 바로 교체할 수 있습니다.
Hardware‑agnostic Optimization – GPU와 CPU가 혼합된 이종 인프라를 보유한 기업도 별도의 손수 튜닝한 커널이 필요 없으며, FalconGEMM이 자동으로 적응해 모델 배포용 CI/CD 파이프라인을 단순화합니다.

제한 사항 및 향후 작업

수치 안정성 – 일부 LCMA(예: Strassen‑type)는 추가적인 반올림 오차를 발생시킵니다; 논문에서는 FP64에 대해 약간의 정밀도 손실을 언급했으며, 이는 특정 과학 워크로드에서는 허용되지 않을 수 있습니다.
메모리 사용량 – 재귀 알고리즘은 추가적인 임시 버퍼를 필요로 하며, 메모리가 제한된 장치에서는 처리 가능한 행렬 크기가 제한될 수 있습니다.
모델 일반화 – 분석 성능 모델은 대표적인 GPU/CPU 집합을 기준으로 보정되었습니다; 새로운 가속기(TPU, 맞춤형 ASIC 등)로 확장하려면 추가 프로파일링이 필요합니다.
향후 방향 – 저자들은 혼합 정밀도 자동 튜닝을 도입하고, 런타임 오류 메트릭에 기반한 적응형 재귀 깊이를 탐색하며, 프레임워크를 오픈소스화하여 커뮤니티 주도의 커널 확장을 촉진할 계획입니다.

저자

Honglin Zhu
Jiaping Cao
Jiang Shao
Siyuan Feng
Qian Qiu
Peng Chen
Xu Zhang
Yixian Zhou
Man Lung Yiu
Guang Ji
Minwen Deng
Wenxi Zhu
Jintao Meng

논문 정보

arXiv ID: 2605.06057v1
분류: cs.DC, cs.MS
출판일: 2026년 5월 7일
PDF: PDF 다운로드

[Paper] FalconGEMM: 낮은 복잡도 행렬 곱셈으로 하드웨어 피크 초과

개요

주요 기여

Methodology

Results & Findings

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Cerebras 웨이퍼 스케일 엔진에서의 스텐실 연산

[Paper] Tenstorrent Wormhole에서 스텐실 연산

[Paper] HexiSeq: 이기종 하드웨어에서 LLM의 긴 컨텍스트 훈련 수용

[Paper] RcLLM: Beyond-Prefix KV Caching을 통한 생성형 추천 가속화