[Paper] ResiHP:用动态混合驯服 LLM 训练失败

发布: (2026年5月7日 GMT+8 22:52)
6 分钟阅读
原文: arXiv

Source: arXiv - 2605.06374v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。

概述

训练当今的大型语言模型(LLM)依赖于混合并行——在数千个 GPU 上分配工作。当单个 GPU 出现故障时,整个训练任务可能会停滞,而数据集中序列长度的自然变异会进一步放大问题。ResiHP 引入了一种轻量级、工作负载感知的故障检测器和一个动态调度器,它们共同在硬件故障发生时保持训练顺畅,在 256 GPU 集群上相较于现有的弹性系统实现了最高 4.4 倍的加速。

关键贡献

  • 准确的故障检测:一种新颖的预测器将真实硬件故障与由可变序列长度导致的正常迭代时抖动区分开来。
  • 混合感知调度:动态重塑并行组、模型划分和工作负载分配,以在运行时补偿失效设备。
  • 低开销设计:检测器在线运行,额外计算几乎可以忽略,使其在生产规模训练中实用。
  • 实证验证:在 256‑GPU 集群上的实验表明,与最先进的弹性训练框架相比,在一系列模拟故障模式下吞吐量提升 1.04–4.39×。

方法论

  1. 工作负载感知执行时间预测器

    • 将预期的迭代时间建模为当前批次序列长度分布的函数。
    • 使用轻量回归模型(例如线性回归或浅层神经网络),在短暂的热身阶段进行训练。
    • 当观测到的迭代时间超出统计推导的置信区间时,系统会标记可能的故障。
  2. 动态调度器

    • 并行组大小调整:收缩或扩展 tensor‑model‑parallel 和 data‑parallel 组,以绕过故障 GPU。
    • 模型分区再平衡:重新分配模型分片,使剩余设备能够均匀分担额外工作负载。
    • 工作负载感知批次切分:调整每个设备上短序列和长序列的混合比例,以保持迭代时间平衡。
  3. 集成循环

    • 检测器在每次迭代时运行,将其置信分数传递给调度器。
    • 调度器应用恢复目标吞吐量所需的最小改动集合,然后系统在无需全局重启的情况下继续训练。

结果与发现

场景基线(无弹性)先前的弹性系统ResiHP(吞吐量)
单 GPU 卡顿(慢 5%)0.78×0.92×1.73×
多 GPU 卡顿(2‑3 GPU)0.55×0.68×2.31×
序列长度方差大0.62×0.81×1.04×
混合故障 + 方差0.48×0.66×4.39×
  • 检测准确率:> 96 % 真正例率,< 2 % 假正例率,即使迭代时间因长序列而波动 ±30 %。
  • 开销:预测器增加 < 0.5 % 的额外运行时间;调度器重新配置的成本在后续迭代中摊销。

实际影响

  • 更高的 GPU 利用率:数据中心运营商可以在更大的集群上运行 LLM 训练任务,而不必担心单节点故障会导致整个任务瘫痪。
  • 成本节约:更少的任务重启和对过度配置的需求直接转化为更低的云计算费用。
  • 运维简化:系统的在线检测意味着工程师无需手动监控日志或在 GPU 出现故障时进行干预。
  • 可移植性:由于 ResiHP 在并行组层面工作,它可以以最小的代码改动嵌入现有的 PyTorch/DeepSpeed 或 Megatron‑LM 流水线。

限制与未来工作

  • 故障范围:ResiHP 目前处理性能下降(GPU 变慢)和直接卡死;尚未涉及静默位翻转或模型参数损坏。
  • 超过 256 GPU 的可扩展性:实验止步于 256 GPU;作者指出,当并行组数量非常大时,预测器的准确性可能下降,需要层次化检测。
  • 数据集特定调优:对于长度分布差异巨大的数据集(例如代码与散文),必须重新训练预测器。
  • 未来方向:将框架扩展到多节点、异构集群(GPU/TPU 混合),集成容错检查点,并探索基于强化学习的调度策略。

作者

  • Tenghui Ma
  • Jihu Guo
  • Wei Gao
  • Sitian Lu
  • Zhisheng Ye
  • Hanjing Wang
  • Dahua Lin

论文信息

  • arXiv ID: 2605.06374v1
  • 类别: cs.DC
  • 发布日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »