[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练
发布: (2026年5月8日 GMT+8 18:41)
9 分钟阅读
原文: arXiv
Source: arXiv - 2605.07569v1
请提供您希望翻译的具体文本内容(除代码块和 URL 之外),我将按照要求把它翻译成简体中文并保留原有的格式。
Overview
训练具有极长上下文窗口(数十万到一百万 token)的大型语言模型(LLM)正成为下一代 AI 应用的关键需求。现有系统依赖 Context Parallelism (CP) 和 Head Parallelism (HP),但假设 GPU 集群是同质的——相同的 GPU 型号、相同的显存以及统一的互连带宽。HexiSeq 打破了这一假设,使得在 异构 集群上进行 CP‑HP 训练成为可能,例如混合使用 H100 与 A100 GPU,并且网络链路不均衡。论文展示了通过智能的工作负载放置,开发者可以在现有的非均匀硬件上挤出更多吞吐量,而无需购买全新的同质机架。
关键贡献
- 非对称 CP‑HP 划分: 将经典的 CP 和 HP 方案扩展为允许在计算、内存和带宽不同的设备之间对序列分片和注意力头进行任意拆分。
- 形式化优化模型: 将异构 CP‑HP 分配表述为约束优化问题,考虑每个 GPU 的内存上限、计算能力和通信成本。
- 分层调度器: 引入高效的两级调度器(全局粗粒度放置 + 本地细粒度细化),在毫秒级找到接近最优的调度,即使在拥有数十种 GPU 类型的集群中亦是如此。
- 全面评估: 在真实的 H100–A100 混合集群以及大规模仿真套件(32–128 GPU,最多四种 GPU 型号)上对 HexiSeq 进行基准测试。显示相较于同质基线,平均吞吐提升 1.11×–1.36×,峰值提升最高 1.72×。
- FLOP 可比等价: 证明在 HexiSeq 编排下,异构集群的吞吐可达到最佳同质配置的几百分点内,表明“混合硬件”并非性能惩罚。
方法论
- 建模资源 – 每个 GPU 由三个数值描述:计算吞吐量(TFLOPs)、内存容量(GB)和网络带宽(GB/s)。
- 定义工作负载 – 将长上下文 LLM 训练步骤拆分为:
- 序列分片(输入 token 序列的块)用于 CP。
- 注意力头用于 HP。
两个维度可以独立划分。
- 优化模型 – 目标是最大化整体训练吞吐量(每秒处理的 token 数),同时满足:
- 每个 GPU 的内存约束(分片 + 头部数据必须适配)。
- 计算约束(GPU 的负载不能超过其 TFLOP 额定值)。
- 通信约束(跨网格传输的数据必须符合链路带宽)。
这形成一个混合整数线性规划(MILP)。
- 层次调度器 – 对大规模集群而言,精确求解 MILP 速度过慢。因此 HexiSeq:
- 阶段 1(全局): 使用贪心启发式算法将大块的分片/头部分配给相似 GPU 组。
- 阶段 2(局部): 使用轻量整数求解器细化每个组的划分,以满足剩余约束。
调度器在 128 GPU 集群上运行时间 < 0.5 秒。
- 实现 – 基于已有的 CP/HP 训练框架(如 DeepSpeed 或 Megatron‑LM),HexiSeq 添加了一层薄抽象层,拦截张量放置调用并注入优化器计算的调度计划。
结果与发现
| 设置 | 模型规模 | 上下文长度 | 吞吐量(tokens/s) | 相较于同质基线的加速 |
|---|---|---|---|---|
| 混合 H100 + A100 (8 + 8 GPUs) | 30 B | 512 k | 1.19× 更高 | — |
| 模拟 32‑GPU (4 模型) | 70 B | 1 M | 1.36× 平均,1.72× 峰值 | — |
| 3 B‑70 B 范围,128‑GPU 集群 | 各种 | 最高 1 M | 1.11×–1.19× 实际硬件上 | — |
- 内存利用率: HexiSeq 将每个 GPU 的内存保持在容量的 95 % 以内,避免了在异构网格上使用朴素 CP/HP 时常见的内存溢出崩溃。
- 通信开销: 通过将高带宽链路与最大的数据传输(大分片)对齐,调度器相较于朴素的轮询放置将跨模型流量降低约 30 %。
- 可扩展性: 随着不同 GPU 类型数量的增加,吞吐量提升也随之增长;异构程度越高,相对收益越大。
- 与同质 FLOP‑匹配的等效性: 在匹配总 FLOP(例如,用一块 H100 替换两块 A100)时,HexiSeq 的吞吐量与最佳同质配置相差不超过 3 %,验证了优化器能够提取近乎最优的性能。
实际影响
- 成本效益扩展: 公司可以在不牺牲训练速度的情况下,将旧的 GPU(A100、V100)与更新的 H100 重新组合使用,延长现有硬件的投资回报期。
- 云端灵活性: 在实例类型多样的多租户云环境中,HexiSeq 能自动将异构节点拼接成一个 pod,减少自定义 VM 选择脚本的需求。
- 长上下文应用: 研究人员构建检索增强生成、代码补全或科学推理模型时,需要百万级 token 窗口,现在可以在规模化训练而无需专门的同构超级集群。
- 工具集成: 由于 HexiSeq 作为调度层存在,只需一个描述每块 GPU 规格的配置文件,即可无缝嵌入流行的 LLM 训练流水线(PyTorch、DeepSpeed、Megatron‑LM),代码改动极少。
- 能源与利用率: 通过将工作负载匹配到最强的 GPU,弱设备的空闲功耗降低,从而实现更绿色的训练运行。
限制与未来工作
- 调度器在超大网格上的开销: 虽然在最多 128 块 GPU 时仍在亚秒级,但层次化方法在数千块 GPU 时可能需要进一步的扩展技巧(例如分布式调度)。
- 静态资源配置文件: HexiSeq 假设计算/内存/带宽数值是静态的;动态变化(热节流、网络拥塞)尚未建模。
- 仅限于 CP 与 HP: 其他并行策略(张量并行、流水线并行)未涵盖;将它们集成可能为极大模型带来进一步收益。
- 容错性: 当前原型不处理训练中 GPU 故障;未来工作可以加入检查点感知的再平衡。
- 更广的基准: 评估聚焦于 transformer 风格的 LLM;将 HexiSeq 应用于视觉‑语言或多模态模型仍是未解之题。
结论: HexiSeq 表明,借助智能调度器,异构 GPU 集群不再是长上下文 LLM 训练的瓶颈,为更灵活、成本更有效的 AI 开发流水线打开了大门。
作者
- Yan Liang
- Youhe Jiang
- Ran Yan
- Binhang Yuan
- Wei Wang
- Chuan Wu
论文信息
- arXiv ID: 2605.07569v1
- 分类: cs.DC
- 发表时间: 2026年5月8日
- PDF: 下载 PDF