[Paper] ReviveMoE:大规模 MoE LLM 推理部署中的硬件故障快速恢复

发布: (2026年2月25日 GMT+8 01:39)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.21140v1

(未提供需要翻译的正文内容。如需翻译,请提供具体文本。)

概览

大型语言模型(LLM)服务正日益部署在数十甚至数百台机器上,硬件故障不可避免。论文 ReviveMoE 引入了一种轻量级的恢复机制,能够即时恢复服务——无需对整个模型进行代价高昂的“cold‑restart”,该机制针对主导当今高吞吐量推理工作负载的 Mixture‑of‑Experts(MoE)LLM。

关键贡献

  • 快速、就地的故障恢复,用于基于 MoE 的 LLM 推理,避免重新加载模型权重或重新编译图。
  • 统一支持 同址(MoE 与注意力在同一节点)和 分离(MoE 与注意力分离)两种服务架构。
  • 与生产堆栈集成:基于华为云的 xDeepServe 服务平台和 XCCL 通信库,展示了实际可行性。
  • 量化加速:恢复延迟从数十秒(完整重启)降低到亚秒级或低毫秒级的大规模部署场景。
  • 对请求延迟影响最小:恢复路径与正常推理并行运行,保持尾部延迟保证。

方法论

  1. State checkpointing – 关键运行时元数据(例如路由表、专家负载统计和通信上下文)以无锁方式定期快照。
  2. Hot‑swap expert replicas – 当承载部分专家的节点失效时,另一台机器上的备用副本被激活。路由逻辑使用最新检查点即时更新。
  3. Graceful request draining – 正在进行的针对失效节点的请求被重新路由到健康副本;新请求通过更新的基于哈希的路由器自动指向备用集合。
  4. Communication layer adaptation – 利用 XCCL 的容错集合原语,重新建立 all‑reduce 和广播通道,而无需拆除整个计算图。
  5. Compatibility layer – 对于同址部署,该机制只需绕过 attention 子图;而在分离部署中,它会重新链接 attention 工作节点到恢复的专家工作节点。

该方法实现为 xDeepServe 之上的轻量中间件,无需修改底层模型代码或训练流水线。

Results & Findings

MetricTraditional RestartReviveMoE (Hot‑Swap)
Mean recovery time12–45 s (depends on model size)0.8 s (≈ 1 % of restart time)
99‑th‑percentile request latency during failureSpike up to 5× normal latency< 1.2× normal latency
Throughput loss30–60 % drop while reloading< 5 % drop (mostly due to rerouting)
Memory overheadNone (but full reload)~8 % extra for standby replicas

作者在一个 128 GPU 的 MoE 大语言模型部署(≈ 300 B 参数)上评估了 ReviveMoE,该部署每秒处理数万请求。 在模拟节点故障的情况下,系统保持了 SLA 级别的延迟,并在不到一秒内恢复,证实热‑Swap 路径随专家数量线性扩展。

实际影响

  • SLA 级别的可靠性:云服务提供商可以保证 LLM 推理服务在亚秒级别内恢复,这对企业客户是关键的差异化因素。
  • 成本节约:消除完整模型重新加载可减少计算资源浪费,并降低对过度配置的备用集群的需求。
  • 运维简化:运维人员无需再编写复杂的编排脚本来“排空并重启” MoE 工作节点;中间件会自动处理。
  • 开发者友好性:现有的 MoE 模型可以直接部署——ReviveMoE 作为服务栈的插件使用,降低了采用容错推理的门槛。
  • 边缘与混合云:相同的技术可用于解耦的部署场景,例如 MoE 专家在专用加速器(如 TPU)上运行,而注意力机制在 CPU/GPU 上运行,从而实现稳健的多云部署。

限制与未来工作

  • 硬件依赖:当前原型依赖华为的 XCCL 库和 xDeepServe;迁移到其他生态系统(例如 NVIDIA NCCL、Ray Serve)需要额外的工程工作。
  • 备用副本成本:维护热备份专家副本会产生适度的内存开销;未来工作可以探索基于故障概率的动态副本扩缩。
  • 仅限 MoE 范围:虽然 MoE 目前主导大型 LLM,但该方法并未直接针对密集 Transformer 部署;将热‑swap 概念扩展到通用注意力层是一个开放方向。
  • 故障模式:本文聚焦单节点故障;处理相关故障(例如机架级电源失效)或网络分区仍是未来工作。

总体而言,ReviveMoE 提供了一条务实、可投入生产的路径,使大规模 MoE LLM 推理服务具备弹性,为更可靠的 AI‑as‑a‑service(AI 即服务)提供奠定基础。

作者

  • Haley Li
  • Xinglu Wang
  • Cong Feng
  • Chunxu Zuo
  • Yanan Wang
  • Hei Lo
  • Yufei Cui
  • Bingji Wang
  • Duo Cui
  • Shuming Jing
  • Yizhou Shan
  • Ying Xiong
  • Jiannan Wang
  • Yong Zhang
  • Zhenan Fan

论文信息

  • arXiv ID: 2602.21140v1
  • 类别: cs.DC
  • 出版时间: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »