[Paper] HetCCL:使用异构 GPU 加速 LLM 训练

发布: (2026年1月30日 GMT+8 13:31)
6 分钟阅读
原文: arXiv

Source: arXiv - 2601.22585v1

概述

本文介绍了 HetCCL,这是一款全新的集体通信库,使大语言模型(LLM)训练能够在由 NVIDIA 和 AMD 卡混合构成的 GPU 集群上高效运行。HetCCL 在不修改驱动的前提下,桥接了供应商特定的通信栈(NCCL 和 RCCL)之间的差距,使异构 GPU 农场变得实用,从而降低了训练时间和硬件成本。

关键贡献

  • 统一通信层,透明地结合 NVIDIA 的 NCCL 和 AMD 的 RCCL,实现基于 RDMA 的跨不同 GPU 厂商的数据交换。
  • 两种新颖的跨厂商机制:(1)后端无关的路由 shim,将集合调用转发到相应的厂商库;(2)RDMA 加速的传输,绕过主机 CPU 瓶颈,同时保留厂商级优化。
  • 零代码修改集成:现有的 PyTorch/TensorFlow 训练脚本在异构集群上可直接运行,无需更改。
  • 性能持平于同构环境下的原生 NCCL/RCCL,并在混合厂商配置中实现最高 1.3 倍 的加速。
  • 开源实现,以及一个轻量级 API,可直接嵌入任何标准深度学习框架。

方法论

  1. 后端抽象 – HetCCL 定义了一层轻量抽象层,在运行时检测 GPU 厂商并将集合操作(例如 all‑reduce、broadcast)路由到匹配的厂商库。
  2. RDMA 传输引擎 – HetCCL 不依赖 PCIe‑host 内存拷贝,而是利用 InfiniBand/RoCE RDMA 在节点间直接在 GPU 内存之间移动张量,且不受厂商限制。
  3. 混合调度 – 对于给定的集合操作,HetCCL 将参与的 GPU 划分为同质子组(仅 NVIDIA、仅 AMD),这些子组使用各自的原生库,然后通过 RDMA 引擎将子结果拼接起来。
  4. 评估设置 – 作者构建了一个 16 节点集群(8 × NVIDIA A100,8 × AMD MI250),通过 200 Gb/s InfiniBand 互连。他们基准测试了标准的大模型训练内核(BERT‑large,GPT‑2‑XL),并测量了端到端训练吞吐量、集合操作延迟以及扩展效率。

结果与发现

ScenarioBaseline (NCCL/RCCL)HetCCLSpeed‑up vs. Baseline
同构 NVIDIA (8 A100)1.00× (NCCL)0.99×–1 %
同构 AMD (8 MI250)1.00× (RCCL)1.01×+1 %
混合 (4 A100 + 4 MI250)仅 NCCL 或仅 RCCL(低效)HetCCL1.22×(整体)
端到端 GPT‑2‑XL 训练(tokens/s)12.4 K15.3 K+23 %
All‑reduce 延迟(256 MiB)1.8 ms (NCCL) / 2.0 ms (RCCL)1.9 ms≈ 基准
  • 同构集群中的等价性 表明 HetCCL 带来的开销可以忽略不计。
  • 跨厂商扩展 是关键区别:HetCCL 避免了强制所有 GPU 使用单一厂商库的“慢路径”,否则会导致更快的设备被拖慢。
  • 训练成本降低:通过允许组织将旧的 AMD 卡与更新的 NVIDIA GPU 混合使用,总硬件支出可降低至多 30 %,同时保持竞争力的训练时间。

实际影响

  • Cost‑effective GPU farms – Companies can extend existing AMD GPU investments rather than buying an all‑NVIDIA refresh, accelerating ROI on prior capital expenditures.
  • Simplified DevOps – No need to rewrite training scripts or maintain separate clusters; HetCCL’s drop‑in API works with the same PyTorch/TensorFlow codebases.
  • Cloud‑provider flexibility – Multi‑tenant cloud services that expose both NVIDIA and AMD instances can now offer “heterogeneous” VM families without sacrificing performance, opening up new pricing tiers.
  • Future‑proofing – As newer vendors (e.g., Intel Xe‑HP) enter the market, the same abstraction pattern can be extended, protecting investments against vendor lock‑in.
  • Research acceleration – Academic labs with limited budgets can assemble mixed‑GPU clusters to train LLMs that would otherwise be out of reach, fostering more rapid experimentation.

限制与未来工作

  • RDMA 依赖 – HetCCL 的性能提升依赖于高速 RDMA 互连;在仅使用以太网的集群上,这些收益会减小。
  • 供应商库更新 – 每当 NCCL 或 RCCL 发布重大版本时,都必须重新验证兼容性,这需要持续的维护。
  • 超过 16 节点的可扩展性 – 论文评估了最多 16 节点;更大规模的测试(数百个 GPU)留待未来探索。
  • 对新兴互连的支持 – 将传输引擎扩展以利用 NVIDIA 的 NVLink‑2 或 AMD 的 Infinity Fabric 跨节点是一个开放的研究方向。

总体而言,HetCCL 证明了异构 GPU 集群不仅是理论上的可能性,更是面向当今 LLM 训练工作负载的实用、高性能解决方案。

作者

  • Heehoon Kim
  • Jaehwan Lee
  • Taejeoung Kim
  • Jongwon Park
  • Jinpyo Kim
  • Pyongwon Suh
  • Ryan H. Choi
  • Sangwoo Lee
  • Jaejin Lee

论文信息

  • arXiv ID: 2601.22585v1
  • 分类: cs.DC, cs.LG
  • 出版日期: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »