[Paper] OD-MoE：按需专家加载用于无缓存边缘分布式 MoE 推理

发布: 2个月前 (2025年12月4日 GMT+8 00:27)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.03927v1

概述

本文介绍了 OD‑MoE，一种新颖的推理框架，使 Mixture‑of‑Experts (MoE) 语言模型能够在微型边缘设备上运行，而无需为专家权重专设 GPU 缓存。通过从分布式节点池中按需加载专家，并提前预测哪些专家将被需要，OD‑MoE 大幅降低了 GPU 内存需求，同时保持了实用的推理速度。

关键贡献

无缓存专家加载: 消除传统的 GPU 常驻专家缓存，使得 MoE 推理在 < 1 GB 显存的 GPU 上成为可能。
分布式按需加载: 在多个边缘节点上并行进行专家传输和计算，使下一个专家在需要前即准备就绪。
超高精度仿真预测器: 轻量级预测器能够提前数层预测专家激活，准确率达 99.94 %，远超以往的卸载方案。
全面基准测试: 表明 OD‑MoE 在仅使用三分之一 GPU 内存的情况下，达到约 75 % 的全缓存 MoE 解码吞吐量，已在 10 节点测试平台上验证。

Source: …

方法论

系统架构 – OD‑MoE 将一组边缘设备视为共享内存结构。每个节点在其 CPU 内存中保存总专家池的一部分。
并行加载与执行 – 当当前层的专家在 GPU 上计算时，后台线程会把下一批需要的专家从远程节点流式传输到 GPU。只要某个专家完成前向传播，它就会被驱逐，为即将到来的专家腾出空间。
仿真预测引擎 – 为了避免在每一层等待路由决策，OD‑MoE 运行一个小型“仿真器”，提前模拟路由逻辑（例如向前 2‑3 层）。该仿真器仅使用输入 token 嵌入和路由 logits，这些计算代价低廉，以预测后续将被激活的精确专家集合。
即时（JIT）调度 – 预测器的输出驱动调度器，将每个即将使用的专家分配给能够最快交付的节点，从而平衡网络延迟和 GPU 内存压力。

整个流水线被设计为 非阻塞：GPU 计算永不因等待数据而停顿，网络流量与模型执行并行重叠。

结果与发现

指标	OD‑MoE	先前的卸载方式（例如 DeepSpeed‑MoE）	完全缓存 MoE
专家激活预测准确率	99.94 %	~85 %	N/A（始终正确）
解码速度（tokens/s）	0.75× of fully cached	0.45×	1×
GPU 内存使用	≈ 1/3 of fully cached	0.5×	1×
运行 MoE 所需的最小 GPU 内存	< 1 GB	~2 GB	> 3 GB

关键要点：

预测器几乎完美的准确率意味着几乎没有错误预测的专家加载，从而避免了昂贵的回滚。
重叠传输和计算可以恢复因未缓存专家而失去的大部分速度。
内存节省显著，使得 MoE 部署能够在普通边缘 GPU（例如 Jetson Nano、RTX 3050）上实现。

Practical Implications

Edge AI services: 开发者现在可以在低成本的物联网网关上托管复杂的 LLM 风格助手，实现设备端的隐私保护推理，无需进行云端往返。
Scalable inference farms: 一批廉价的边缘节点可以协同提供大型 MoE 模型的服务，降低对高内存 GPU 服务器的昂贵依赖。
Dynamic workload balancing: JIT 调度器可以扩展以考虑功耗预算或网络拥塞，使 OD‑MoE 适用于移动设备或电池供电的场景。
Simplified deployment pipelines: 无需预先挑选“热门”专家进行缓存；系统会在运行时自动学习激活模式，降低工程维护成本。

限制与未来工作

网络依赖性： 如果节点间带宽或延迟出现峰值，性能会下降；本文假设使用高速局域网。
预测器开销： 虽然轻量，但模拟预测器会增加额外计算，在超低功耗 CPU 上可能变得显著。
超过 10 节点的可扩展性： 实验仅到十个节点；更大的集群可能带来调度复杂性和争用。
模型类型： 本研究聚焦于基于 MoE 的大语言模型；将相同的按需加载应用于其他稀疏架构（例如 Switch Transformers）仍是未解之谜。

未来的研究方向包括自适应带宽感知调度、与异构加速器（TPU、NPU）的集成，以及扩展预测器以处理在微调过程中演化的动态路由策略。

作者

Liujianfu Wang
Yuyang Du
Yuchen Pan
Soung Chang Liew
Jiacheng Liu
Kexin Chen

论文信息

arXiv ID: 2512.03927v1
类别: cs.DC
出版时间: 2025年12月3日
PDF: 下载 PDF

[Paper] OD-MoE：按需专家加载用于无缓存边缘分布式 MoE 推理

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] Metronome：差异化延迟调度用于 Serverless Functions

[Paper] 公交车上安装的 Edge 服务器可行吗？

[Paper] 编译器支持的低精度和 AoS-SoA 转换用于异构硬件

[Paper] FedGMR：在异步和模型异构性下的渐进模型恢复联邦学习