[Paper] FalconGEMM:通过低复杂度矩阵乘法超越硬件峰值

发布: (2026年5月7日 GMT+8 19:41)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06057v1

概述

本文介绍了 FalconGEMM,一个跨平台框架,使“低复杂度”矩阵乘法算法(LCMAs)在实际深度学习工作负载中变得可行。通过自动生成、优化并为特定硬件目标选择最佳算法,FalconGEMM 在 GPU 和 CPU 上始终超越传统 GEMM 库乃至其他 LCMA 方案的性能。

关键贡献

  • 可移植部署模块 – 生成硬件特定代码,使相同的 LCMA 能在 GPU(H100、A100)、ARM CPU 和 x86 CPU 上运行,无需手动重新调优。
  • 组并行优化 – 新颖的片上数据复用和并行资源调度,降低内存带宽压力,最大化计算利用率。
  • 轻量决策模块 – 一个分析性能模型,预测任意矩阵形状和硬件配置下最快的算法,实现运行时选择。
  • 全面评估 – 在最先进的 GEMM 库(cuBLAS、CUTLASS、Intel MKL)上实现 7.6 %–17.9 % 的加速,在大型语言模型(LLM)训练和推理任务中相较于竞争的 LCMA 框架(如 AlphaTensor)实现 12.4 %–55.6 % 的提升。

方法论

  1. Algorithm Catalog – 作者收集了一套 LCMA(例如 Strassen‑like、基于 Winograd 的以及更新的张量分解方法),其算术复杂度低于经典的 O(n³) GEMM。
  2. Code Generation – 部署引擎解析目标硬件的指令集、内存层次结构和并行执行模型,然后生成优化的内核(CUDA、HIP、AVX‑512、NEON 等)。
  3. Group‑Parallel Optimizations – 将内核组织成“组”,在片上缓冲区(共享内存、L1 缓存或寄存器)中共享中间结果。这降低了相同子乘积从 DRAM 中读取的次数。
  4. Analytical Performance Model – 决策模块通过考虑计算吞吐量、内存带宽以及 LCMA 递归深度带来的额外开销来估算运行时间。随后选择能够最小化预测时间的算法(及其分块参数)。
  5. Run‑time Dispatch – 在推理或训练启动时,FalconGEMM 使用实际矩阵尺寸和硬件统计信息查询模型,选择最佳内核并在无需开发者干预的情况下启动。

结果与发现

平台数据类型相较于 cuBLAS / MKL 的加速相较于 AlphaTensor 的加速
NVIDIA H100FP16+15.2 %+32.8 %
NVIDIA A100BF16+12.7 %+28.4 %
ARM NeoverseFP32+9.3 %+18.5 %
Intel Xeon (AVX‑512)FP64+7.6 %+12.4 %
  • 突破峰值性能:在多个 LLM 层(例如 transformer 注意力和前馈块)中,FalconGEMM 通过算法上减少算术工作量,超越了底层硬件的理论峰值 FLOPs。
  • 跨形状的鲁棒性:决策模块能够在经典 GEMM(针对小的方阵)和 LCMA(针对 token‑wise 操作中常见的高瘦或宽短矩阵)之间正确切换。
  • 低开销:分析模型仅增加 < 0.5 % 的运行时开销,使该框架适用于批量训练和对延迟敏感的推理。

实际影响

  • LLM 训练流水线 – 更快的矩阵乘法直接转化为 GPU 使用时长的减少,从而降低大规模模型预训练的云成本。
  • 边缘推理 – 在基于 ARM 的服务器甚至移动 SoC 上,FalconGEMM 能在不牺牲电池寿命的前提下提供更高的设备端语言模型吞吐量。
  • 框架集成 – 由于部署模块生成标准的 CUDA/HIP/AVX 内核,现有深度学习库(PyTorch、TensorFlow、JAX)可以通过薄包装器直接用 FalconGEMM 内核替换其 GEMM 调用,实现即插即用。
  • 硬件无关优化 – 拥有异构设备(GPU + CPU)舰队的公司不再需要分别手动调优内核;FalconGEMM 能自动适配,简化模型部署的 CI/CD 流程。

限制与未来工作

  • 数值稳定性 – 某些 LCMAs(例如 Strassen‑type)会引入额外的舍入误差;论文指出在 FP64 下精度略有下降,这在某些科学工作负载中可能不可接受。
  • 内存占用 – 递归算法需要额外的临时缓冲区;在内存受限的设备上,这可能限制可处理的矩阵规模。
  • 模型泛化 – 分析性能模型在一组代表性的 GPU/CPU 上进行校准;将其扩展到新兴加速器(TPU、定制 ASIC)需要额外的性能分析。
  • 未来方向 – 作者计划加入混合精度自动调优,基于运行时误差度量探索自适应递归深度,并开源该框架以促进社区驱动的内核扩展。

作者

  • Honglin Zhu
  • Jiaping Cao
  • Jiang Shao
  • Siyuan Feng
  • Qian Qiu
  • Peng Chen
  • Xu Zhang
  • Yixian Zhou
  • Man Lung Yiu
  • Guang Ji
  • Minwen Deng
  • Wenxi Zhu
  • Jintao Meng

论文信息

  • arXiv ID: 2605.06057v1
  • 分类: cs.DC, cs.MS
  • 出版日期: 2026年5月7日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »