[Paper] ReviveMoE:大规模 MoE LLM 推理部署中的硬件故障快速恢复
发布: (2026年2月25日 GMT+8 01:39)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.21140v1
(未提供需要翻译的正文内容。如需翻译,请提供具体文本。)
概览
大型语言模型(LLM)服务正日益部署在数十甚至数百台机器上,硬件故障不可避免。论文 ReviveMoE 引入了一种轻量级的恢复机制,能够即时恢复服务——无需对整个模型进行代价高昂的“cold‑restart”,该机制针对主导当今高吞吐量推理工作负载的 Mixture‑of‑Experts(MoE)LLM。
关键贡献
- 快速、就地的故障恢复,用于基于 MoE 的 LLM 推理,避免重新加载模型权重或重新编译图。
- 统一支持 同址(MoE 与注意力在同一节点)和 分离(MoE 与注意力分离)两种服务架构。
- 与生产堆栈集成:基于华为云的 xDeepServe 服务平台和 XCCL 通信库,展示了实际可行性。
- 量化加速:恢复延迟从数十秒(完整重启)降低到亚秒级或低毫秒级的大规模部署场景。
- 对请求延迟影响最小:恢复路径与正常推理并行运行,保持尾部延迟保证。
方法论
- State checkpointing – 关键运行时元数据(例如路由表、专家负载统计和通信上下文)以无锁方式定期快照。
- Hot‑swap expert replicas – 当承载部分专家的节点失效时,另一台机器上的备用副本被激活。路由逻辑使用最新检查点即时更新。
- Graceful request draining – 正在进行的针对失效节点的请求被重新路由到健康副本;新请求通过更新的基于哈希的路由器自动指向备用集合。
- Communication layer adaptation – 利用 XCCL 的容错集合原语,重新建立 all‑reduce 和广播通道,而无需拆除整个计算图。
- Compatibility layer – 对于同址部署,该机制只需绕过 attention 子图;而在分离部署中,它会重新链接 attention 工作节点到恢复的专家工作节点。
该方法实现为 xDeepServe 之上的轻量中间件,无需修改底层模型代码或训练流水线。
Results & Findings
| Metric | Traditional Restart | ReviveMoE (Hot‑Swap) |
|---|---|---|
| Mean recovery time | 12–45 s (depends on model size) | 0.8 s (≈ 1 % of restart time) |
| 99‑th‑percentile request latency during failure | Spike up to 5× normal latency | < 1.2× normal latency |
| Throughput loss | 30–60 % drop while reloading | < 5 % drop (mostly due to rerouting) |
| Memory overhead | None (but full reload) | ~8 % extra for standby replicas |
作者在一个 128 GPU 的 MoE 大语言模型部署(≈ 300 B 参数)上评估了 ReviveMoE,该部署每秒处理数万请求。 在模拟节点故障的情况下,系统保持了 SLA 级别的延迟,并在不到一秒内恢复,证实热‑Swap 路径随专家数量线性扩展。
实际影响
- SLA 级别的可靠性:云服务提供商可以保证 LLM 推理服务在亚秒级别内恢复,这对企业客户是关键的差异化因素。
- 成本节约:消除完整模型重新加载可减少计算资源浪费,并降低对过度配置的备用集群的需求。
- 运维简化:运维人员无需再编写复杂的编排脚本来“排空并重启” MoE 工作节点;中间件会自动处理。
- 开发者友好性:现有的 MoE 模型可以直接部署——ReviveMoE 作为服务栈的插件使用,降低了采用容错推理的门槛。
- 边缘与混合云:相同的技术可用于解耦的部署场景,例如 MoE 专家在专用加速器(如 TPU)上运行,而注意力机制在 CPU/GPU 上运行,从而实现稳健的多云部署。
限制与未来工作
- 硬件依赖:当前原型依赖华为的 XCCL 库和 xDeepServe;迁移到其他生态系统(例如 NVIDIA NCCL、Ray Serve)需要额外的工程工作。
- 备用副本成本:维护热备份专家副本会产生适度的内存开销;未来工作可以探索基于故障概率的动态副本扩缩。
- 仅限 MoE 范围:虽然 MoE 目前主导大型 LLM,但该方法并未直接针对密集 Transformer 部署;将热‑swap 概念扩展到通用注意力层是一个开放方向。
- 故障模式:本文聚焦单节点故障;处理相关故障(例如机架级电源失效)或网络分区仍是未来工作。
总体而言,ReviveMoE 提供了一条务实、可投入生产的路径,使大规模 MoE LLM 推理服务具备弹性,为更可靠的 AI‑as‑a‑service(AI 即服务)提供奠定基础。
作者
- Haley Li
- Xinglu Wang
- Cong Feng
- Chunxu Zuo
- Yanan Wang
- Hei Lo
- Yufei Cui
- Bingji Wang
- Duo Cui
- Shuming Jing
- Yizhou Shan
- Ying Xiong
- Jiannan Wang
- Yong Zhang
- Zhenan Fan
论文信息
- arXiv ID: 2602.21140v1
- 类别: cs.DC
- 出版时间: 2026年2月24日
- PDF: 下载 PDF