[Paper] HetCCL：使用异构 GPU 加速 LLM 训练

发布: 1周前 (2026年1月30日 GMT+8 13:31)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.22585v1

概述

本文介绍了 HetCCL，这是一款全新的集体通信库，使大语言模型（LLM）训练能够在由 NVIDIA 和 AMD 卡混合构成的 GPU 集群上高效运行。HetCCL 在不修改驱动的前提下，桥接了供应商特定的通信栈（NCCL 和 RCCL）之间的差距，使异构 GPU 农场变得实用，从而降低了训练时间和硬件成本。

关键贡献

统一通信层，透明地结合 NVIDIA 的 NCCL 和 AMD 的 RCCL，实现基于 RDMA 的跨不同 GPU 厂商的数据交换。
两种新颖的跨厂商机制：（1）后端无关的路由 shim，将集合调用转发到相应的厂商库；（2）RDMA 加速的传输，绕过主机 CPU 瓶颈，同时保留厂商级优化。
零代码修改集成：现有的 PyTorch/TensorFlow 训练脚本在异构集群上可直接运行，无需更改。
性能持平于同构环境下的原生 NCCL/RCCL，并在混合厂商配置中实现最高 1.3 倍 的加速。
开源实现，以及一个轻量级 API，可直接嵌入任何标准深度学习框架。

方法论

后端抽象 – HetCCL 定义了一层轻量抽象层，在运行时检测 GPU 厂商并将集合操作（例如 all‑reduce、broadcast）路由到匹配的厂商库。
RDMA 传输引擎 – HetCCL 不依赖 PCIe‑host 内存拷贝，而是利用 InfiniBand/RoCE RDMA 在节点间直接在 GPU 内存之间移动张量，且不受厂商限制。
混合调度 – 对于给定的集合操作，HetCCL 将参与的 GPU 划分为同质子组（仅 NVIDIA、仅 AMD），这些子组使用各自的原生库，然后通过 RDMA 引擎将子结果拼接起来。
评估设置 – 作者构建了一个 16 节点集群（8 × NVIDIA A100，8 × AMD MI250），通过 200 Gb/s InfiniBand 互连。他们基准测试了标准的大模型训练内核（BERT‑large，GPT‑2‑XL），并测量了端到端训练吞吐量、集合操作延迟以及扩展效率。

结果与发现

Scenario	Baseline (NCCL/RCCL)	HetCCL	Speed‑up vs. Baseline
同构 NVIDIA (8 A100)	1.00× (NCCL)	0.99×	–1 %
同构 AMD (8 MI250)	1.00× (RCCL)	1.01×	+1 %
混合 (4 A100 + 4 MI250)	仅 NCCL 或仅 RCCL（低效）	HetCCL	1.22×（整体）
端到端 GPT‑2‑XL 训练（tokens/s）	12.4 K	15.3 K	+23 %
All‑reduce 延迟（256 MiB）	1.8 ms (NCCL) / 2.0 ms (RCCL)	1.9 ms	≈ 基准

同构集群中的等价性 表明 HetCCL 带来的开销可以忽略不计。
跨厂商扩展 是关键区别：HetCCL 避免了强制所有 GPU 使用单一厂商库的“慢路径”，否则会导致更快的设备被拖慢。
训练成本降低：通过允许组织将旧的 AMD 卡与更新的 NVIDIA GPU 混合使用，总硬件支出可降低至多 30 %，同时保持竞争力的训练时间。

实际影响

Cost‑effective GPU farms – Companies can extend existing AMD GPU investments rather than buying an all‑NVIDIA refresh, accelerating ROI on prior capital expenditures.
Simplified DevOps – No need to rewrite training scripts or maintain separate clusters; HetCCL’s drop‑in API works with the same PyTorch/TensorFlow codebases.
Cloud‑provider flexibility – Multi‑tenant cloud services that expose both NVIDIA and AMD instances can now offer “heterogeneous” VM families without sacrificing performance, opening up new pricing tiers.
Future‑proofing – As newer vendors (e.g., Intel Xe‑HP) enter the market, the same abstraction pattern can be extended, protecting investments against vendor lock‑in.
Research acceleration – Academic labs with limited budgets can assemble mixed‑GPU clusters to train LLMs that would otherwise be out of reach, fostering more rapid experimentation.

限制与未来工作

RDMA 依赖 – HetCCL 的性能提升依赖于高速 RDMA 互连；在仅使用以太网的集群上，这些收益会减小。
供应商库更新 – 每当 NCCL 或 RCCL 发布重大版本时，都必须重新验证兼容性，这需要持续的维护。
超过 16 节点的可扩展性 – 论文评估了最多 16 节点；更大规模的测试（数百个 GPU）留待未来探索。
对新兴互连的支持 – 将传输引擎扩展以利用 NVIDIA 的 NVLink‑2 或 AMD 的 Infinity Fabric 跨节点是一个开放的研究方向。

总体而言，HetCCL 证明了异构 GPU 集群不仅是理论上的可能性，更是面向当今 LLM 训练工作负载的实用、高性能解决方案。

作者

Heehoon Kim
Jaehwan Lee
Taejeoung Kim
Jongwon Park
Jinpyo Kim
Pyongwon Suh
Ryan H. Choi
Sangwoo Lee
Jaejin Lee

论文信息

arXiv ID: 2601.22585v1
分类: cs.DC, cs.LG
出版日期: 2026年1月30日
PDF: 下载 PDF

[Paper] HetCCL：使用异构 GPU 加速 LLM 训练

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈