[Paper] HetCCL:使用异构 GPU 加速 LLM 训练
发布: (2026年1月30日 GMT+8 13:31)
6 分钟阅读
原文: arXiv
Source: arXiv - 2601.22585v1
概述
本文介绍了 HetCCL,这是一款全新的集体通信库,使大语言模型(LLM)训练能够在由 NVIDIA 和 AMD 卡混合构成的 GPU 集群上高效运行。HetCCL 在不修改驱动的前提下,桥接了供应商特定的通信栈(NCCL 和 RCCL)之间的差距,使异构 GPU 农场变得实用,从而降低了训练时间和硬件成本。
关键贡献
- 统一通信层,透明地结合 NVIDIA 的 NCCL 和 AMD 的 RCCL,实现基于 RDMA 的跨不同 GPU 厂商的数据交换。
- 两种新颖的跨厂商机制:(1)后端无关的路由 shim,将集合调用转发到相应的厂商库;(2)RDMA 加速的传输,绕过主机 CPU 瓶颈,同时保留厂商级优化。
- 零代码修改集成:现有的 PyTorch/TensorFlow 训练脚本在异构集群上可直接运行,无需更改。
- 性能持平于同构环境下的原生 NCCL/RCCL,并在混合厂商配置中实现最高 1.3 倍 的加速。
- 开源实现,以及一个轻量级 API,可直接嵌入任何标准深度学习框架。
方法论
- 后端抽象 – HetCCL 定义了一层轻量抽象层,在运行时检测 GPU 厂商并将集合操作(例如 all‑reduce、broadcast)路由到匹配的厂商库。
- RDMA 传输引擎 – HetCCL 不依赖 PCIe‑host 内存拷贝,而是利用 InfiniBand/RoCE RDMA 在节点间直接在 GPU 内存之间移动张量,且不受厂商限制。
- 混合调度 – 对于给定的集合操作,HetCCL 将参与的 GPU 划分为同质子组(仅 NVIDIA、仅 AMD),这些子组使用各自的原生库,然后通过 RDMA 引擎将子结果拼接起来。
- 评估设置 – 作者构建了一个 16 节点集群(8 × NVIDIA A100,8 × AMD MI250),通过 200 Gb/s InfiniBand 互连。他们基准测试了标准的大模型训练内核(BERT‑large,GPT‑2‑XL),并测量了端到端训练吞吐量、集合操作延迟以及扩展效率。
结果与发现
| Scenario | Baseline (NCCL/RCCL) | HetCCL | Speed‑up vs. Baseline |
|---|---|---|---|
| 同构 NVIDIA (8 A100) | 1.00× (NCCL) | 0.99× | –1 % |
| 同构 AMD (8 MI250) | 1.00× (RCCL) | 1.01× | +1 % |
| 混合 (4 A100 + 4 MI250) | 仅 NCCL 或仅 RCCL(低效) | HetCCL | 1.22×(整体) |
| 端到端 GPT‑2‑XL 训练(tokens/s) | 12.4 K | 15.3 K | +23 % |
| All‑reduce 延迟(256 MiB) | 1.8 ms (NCCL) / 2.0 ms (RCCL) | 1.9 ms | ≈ 基准 |
- 同构集群中的等价性 表明 HetCCL 带来的开销可以忽略不计。
- 跨厂商扩展 是关键区别:HetCCL 避免了强制所有 GPU 使用单一厂商库的“慢路径”,否则会导致更快的设备被拖慢。
- 训练成本降低:通过允许组织将旧的 AMD 卡与更新的 NVIDIA GPU 混合使用,总硬件支出可降低至多 30 %,同时保持竞争力的训练时间。
实际影响
- Cost‑effective GPU farms – Companies can extend existing AMD GPU investments rather than buying an all‑NVIDIA refresh, accelerating ROI on prior capital expenditures.
- Simplified DevOps – No need to rewrite training scripts or maintain separate clusters; HetCCL’s drop‑in API works with the same PyTorch/TensorFlow codebases.
- Cloud‑provider flexibility – Multi‑tenant cloud services that expose both NVIDIA and AMD instances can now offer “heterogeneous” VM families without sacrificing performance, opening up new pricing tiers.
- Future‑proofing – As newer vendors (e.g., Intel Xe‑HP) enter the market, the same abstraction pattern can be extended, protecting investments against vendor lock‑in.
- Research acceleration – Academic labs with limited budgets can assemble mixed‑GPU clusters to train LLMs that would otherwise be out of reach, fostering more rapid experimentation.
限制与未来工作
- RDMA 依赖 – HetCCL 的性能提升依赖于高速 RDMA 互连;在仅使用以太网的集群上,这些收益会减小。
- 供应商库更新 – 每当 NCCL 或 RCCL 发布重大版本时,都必须重新验证兼容性,这需要持续的维护。
- 超过 16 节点的可扩展性 – 论文评估了最多 16 节点;更大规模的测试(数百个 GPU)留待未来探索。
- 对新兴互连的支持 – 将传输引擎扩展以利用 NVIDIA 的 NVLink‑2 或 AMD 的 Infinity Fabric 跨节点是一个开放的研究方向。
总体而言,HetCCL 证明了异构 GPU 集群不仅是理论上的可能性,更是面向当今 LLM 训练工作负载的实用、高性能解决方案。
作者
- Heehoon Kim
- Jaehwan Lee
- Taejeoung Kim
- Jongwon Park
- Jinpyo Kim
- Pyongwon Suh
- Ryan H. Choi
- Sangwoo Lee
- Jaejin Lee
论文信息
- arXiv ID: 2601.22585v1
- 分类: cs.DC, cs.LG
- 出版日期: 2026年1月30日
- PDF: 下载 PDF