[Paper] ReviveMoE：大规模 MoE LLM 推理部署中的硬件故障快速恢复

发布: 3天前 (2026年2月25日 GMT+8 01:39)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.21140v1

（未提供需要翻译的正文内容。如需翻译，请提供具体文本。）

概览

大型语言模型（LLM）服务正日益部署在数十甚至数百台机器上，硬件故障不可避免。论文 ReviveMoE 引入了一种轻量级的恢复机制，能够即时恢复服务——无需对整个模型进行代价高昂的“cold‑restart”，该机制针对主导当今高吞吐量推理工作负载的 Mixture‑of‑Experts（MoE）LLM。

关键贡献

快速、就地的故障恢复，用于基于 MoE 的 LLM 推理，避免重新加载模型权重或重新编译图。
统一支持 同址（MoE 与注意力在同一节点）和分离（MoE 与注意力分离）两种服务架构。
与生产堆栈集成：基于华为云的 xDeepServe 服务平台和 XCCL 通信库，展示了实际可行性。
量化加速：恢复延迟从数十秒（完整重启）降低到亚秒级或低毫秒级的大规模部署场景。
对请求延迟影响最小：恢复路径与正常推理并行运行，保持尾部延迟保证。

方法论

State checkpointing – 关键运行时元数据（例如路由表、专家负载统计和通信上下文）以无锁方式定期快照。
Hot‑swap expert replicas – 当承载部分专家的节点失效时，另一台机器上的备用副本被激活。路由逻辑使用最新检查点即时更新。
Graceful request draining – 正在进行的针对失效节点的请求被重新路由到健康副本；新请求通过更新的基于哈希的路由器自动指向备用集合。
Communication layer adaptation – 利用 XCCL 的容错集合原语，重新建立 all‑reduce 和广播通道，而无需拆除整个计算图。
Compatibility layer – 对于同址部署，该机制只需绕过 attention 子图；而在分离部署中，它会重新链接 attention 工作节点到恢复的专家工作节点。

该方法实现为 xDeepServe 之上的轻量中间件，无需修改底层模型代码或训练流水线。

Results & Findings

Metric	Traditional Restart	ReviveMoE (Hot‑Swap)
Mean recovery time	12–45 s (depends on model size)	0.8 s (≈ 1 % of restart time)
99‑th‑percentile request latency during failure	Spike up to 5× normal latency	< 1.2× normal latency
Throughput loss	30–60 % drop while reloading	< 5 % drop (mostly due to rerouting)
Memory overhead	None (but full reload)	~8 % extra for standby replicas

作者在一个 128 GPU 的 MoE 大语言模型部署（≈ 300 B 参数）上评估了 ReviveMoE，该部署每秒处理数万请求。在模拟节点故障的情况下，系统保持了 SLA 级别的延迟，并在不到一秒内恢复，证实热‑Swap 路径随专家数量线性扩展。

实际影响

SLA 级别的可靠性：云服务提供商可以保证 LLM 推理服务在亚秒级别内恢复，这对企业客户是关键的差异化因素。
成本节约：消除完整模型重新加载可减少计算资源浪费，并降低对过度配置的备用集群的需求。
运维简化：运维人员无需再编写复杂的编排脚本来“排空并重启” MoE 工作节点；中间件会自动处理。
开发者友好性：现有的 MoE 模型可以直接部署——ReviveMoE 作为服务栈的插件使用，降低了采用容错推理的门槛。
边缘与混合云：相同的技术可用于解耦的部署场景，例如 MoE 专家在专用加速器（如 TPU）上运行，而注意力机制在 CPU/GPU 上运行，从而实现稳健的多云部署。

限制与未来工作

硬件依赖：当前原型依赖华为的 XCCL 库和 xDeepServe；迁移到其他生态系统（例如 NVIDIA NCCL、Ray Serve）需要额外的工程工作。
备用副本成本：维护热备份专家副本会产生适度的内存开销；未来工作可以探索基于故障概率的动态副本扩缩。
仅限 MoE 范围：虽然 MoE 目前主导大型 LLM，但该方法并未直接针对密集 Transformer 部署；将热‑swap 概念扩展到通用注意力层是一个开放方向。
故障模式：本文聚焦单节点故障；处理相关故障（例如机架级电源失效）或网络分区仍是未来工作。

总体而言，ReviveMoE 提供了一条务实、可投入生产的路径，使大规模 MoE LLM 推理服务具备弹性，为更可靠的 AI‑as‑a‑service（AI 即服务）提供奠定基础。

作者

Haley Li
Xinglu Wang
Cong Feng
Chunxu Zuo
Yanan Wang
Hei Lo
Yufei Cui
Bingji Wang
Duo Cui
Shuming Jing
Yizhou Shan
Ying Xiong
Jiannan Wang
Yong Zhang
Zhenan Fan

论文信息

arXiv ID: 2602.21140v1
类别: cs.DC
出版时间: 2026年2月24日
PDF: 下载 PDF

[Paper] ReviveMoE：大规模 MoE LLM 推理部署中的硬件故障快速恢复

概览

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] STELLAR：存储调优引擎利用 LLM 自主推理实现高性能并行文件系统

[Paper] 工作负载浮力：通过识别共享资源瓶颈让 Apps 保持漂浮

[Paper] 混合共识与量子Sybil抗性

[Paper] LLMTailor：一种层级式定制工具，用于大语言模型的高效检查点