[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练

发布: 3天前 (2026年5月8日 GMT+8 18:41)

9 分钟阅读

原文: arXiv

Source: arXiv - 2605.07569v1

请提供您希望翻译的具体文本内容（除代码块和 URL 之外），我将按照要求把它翻译成简体中文并保留原有的格式。

Overview

训练具有极长上下文窗口（数十万到一百万 token）的大型语言模型（LLM）正成为下一代 AI 应用的关键需求。现有系统依赖 Context Parallelism (CP) 和 Head Parallelism (HP)，但假设 GPU 集群是同质的——相同的 GPU 型号、相同的显存以及统一的互连带宽。HexiSeq 打破了这一假设，使得在异构集群上进行 CP‑HP 训练成为可能，例如混合使用 H100 与 A100 GPU，并且网络链路不均衡。论文展示了通过智能的工作负载放置，开发者可以在现有的非均匀硬件上挤出更多吞吐量，而无需购买全新的同质机架。

关键贡献

非对称 CP‑HP 划分: 将经典的 CP 和 HP 方案扩展为允许在计算、内存和带宽不同的设备之间对序列分片和注意力头进行任意拆分。
形式化优化模型: 将异构 CP‑HP 分配表述为约束优化问题，考虑每个 GPU 的内存上限、计算能力和通信成本。
分层调度器: 引入高效的两级调度器（全局粗粒度放置 + 本地细粒度细化），在毫秒级找到接近最优的调度，即使在拥有数十种 GPU 类型的集群中亦是如此。
全面评估: 在真实的 H100–A100 混合集群以及大规模仿真套件（32–128 GPU，最多四种 GPU 型号）上对 HexiSeq 进行基准测试。显示相较于同质基线，平均吞吐提升 1.11×–1.36×，峰值提升最高 1.72×。
FLOP 可比等价: 证明在 HexiSeq 编排下，异构集群的吞吐可达到最佳同质配置的几百分点内，表明“混合硬件”并非性能惩罚。

方法论

建模资源 – 每个 GPU 由三个数值描述：计算吞吐量（TFLOPs）、内存容量（GB）和网络带宽（GB/s）。
定义工作负载 – 将长上下文 LLM 训练步骤拆分为：
- 序列分片（输入 token 序列的块）用于 CP。
- 注意力头用于 HP。
  两个维度可以独立划分。
优化模型 – 目标是最大化整体训练吞吐量（每秒处理的 token 数），同时满足：
- 每个 GPU 的内存约束（分片 + 头部数据必须适配）。
- 计算约束（GPU 的负载不能超过其 TFLOP 额定值）。
- 通信约束（跨网格传输的数据必须符合链路带宽）。
  这形成一个混合整数线性规划（MILP）。
层次调度器 – 对大规模集群而言，精确求解 MILP 速度过慢。因此 HexiSeq：
- 阶段 1（全局）： 使用贪心启发式算法将大块的分片/头部分配给相似 GPU 组。
- 阶段 2（局部）： 使用轻量整数求解器细化每个组的划分，以满足剩余约束。
  调度器在 128 GPU 集群上运行时间 < 0.5 秒。
实现 – 基于已有的 CP/HP 训练框架（如 DeepSpeed 或 Megatron‑LM），HexiSeq 添加了一层薄抽象层，拦截张量放置调用并注入优化器计算的调度计划。

结果与发现

设置	模型规模	上下文长度	吞吐量（tokens/s）	相较于同质基线的加速
混合 H100 + A100 (8 + 8 GPUs)	30 B	512 k	1.19× 更高	—
模拟 32‑GPU (4 模型)	70 B	1 M	1.36× 平均，1.72× 峰值	—
3 B‑70 B 范围，128‑GPU 集群	各种	最高 1 M	1.11×–1.19× 实际硬件上	—

内存利用率: HexiSeq 将每个 GPU 的内存保持在容量的 95 % 以内，避免了在异构网格上使用朴素 CP/HP 时常见的内存溢出崩溃。
通信开销: 通过将高带宽链路与最大的数据传输（大分片）对齐，调度器相较于朴素的轮询放置将跨模型流量降低约 30 %。
可扩展性: 随着不同 GPU 类型数量的增加，吞吐量提升也随之增长；异构程度越高，相对收益越大。
与同质 FLOP‑匹配的等效性: 在匹配总 FLOP（例如，用一块 H100 替换两块 A100）时，HexiSeq 的吞吐量与最佳同质配置相差不超过 3 %，验证了优化器能够提取近乎最优的性能。

实际影响

成本效益扩展: 公司可以在不牺牲训练速度的情况下，将旧的 GPU（A100、V100）与更新的 H100 重新组合使用，延长现有硬件的投资回报期。
云端灵活性: 在实例类型多样的多租户云环境中，HexiSeq 能自动将异构节点拼接成一个 pod，减少自定义 VM 选择脚本的需求。
长上下文应用: 研究人员构建检索增强生成、代码补全或科学推理模型时，需要百万级 token 窗口，现在可以在规模化训练而无需专门的同构超级集群。
工具集成: 由于 HexiSeq 作为调度层存在，只需一个描述每块 GPU 规格的配置文件，即可无缝嵌入流行的 LLM 训练流水线（PyTorch、DeepSpeed、Megatron‑LM），代码改动极少。
能源与利用率: 通过将工作负载匹配到最强的 GPU，弱设备的空闲功耗降低，从而实现更绿色的训练运行。

限制与未来工作

调度器在超大网格上的开销: 虽然在最多 128 块 GPU 时仍在亚秒级，但层次化方法在数千块 GPU 时可能需要进一步的扩展技巧（例如分布式调度）。
静态资源配置文件: HexiSeq 假设计算/内存/带宽数值是静态的；动态变化（热节流、网络拥塞）尚未建模。
仅限于 CP 与 HP: 其他并行策略（张量并行、流水线并行）未涵盖；将它们集成可能为极大模型带来进一步收益。
容错性: 当前原型不处理训练中 GPU 故障；未来工作可以加入检查点感知的再平衡。
更广的基准: 评估聚焦于 transformer 风格的 LLM；将 HexiSeq 应用于视觉‑语言或多模态模型仍是未解之题。

结论: HexiSeq 表明，借助智能调度器，异构 GPU 集群不再是长上下文 LLM 训练的瓶颈，为更灵活、成本更有效的 AI 开发流水线打开了大门。

作者

Yan Liang
Youhe Jiang
Ran Yan
Binhang Yuan
Wei Wang
Chuan Wu

论文信息

arXiv ID: 2605.07569v1
分类: cs.DC
发表时间: 2026年5月8日
PDF: 下载 PDF

[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Cerebras Wafer-Scale Engine上的Stencil计算

[Paper] Tenstorrent Wormhole上的Stencil计算

[Paper] 截止驱动的层次化代理资源共享用于 AI 服务和 RAN 功能的 AI‑RAN

[论文] RcLLM：通过超前缀 KV 缓存加速生成式推荐