[Paper] 用于 Edge GPU-NDP 系统的高效 MoE 推理调度框架

发布: 1个月前 (2026年1月7日 GMT+8 23:02)

7 分钟阅读

原文: arXiv

看起来您只提供了来源链接，而没有贴出需要翻译的正文内容。请把您想要翻译的文本（除代码块和 URL 之外）粘贴在这里，我会按照要求进行简体中文翻译并保留原有的格式。

概述

本文提出了一种新的推理框架，使得 Mixture‑of‑Experts (MoE) 模型 能够在配备 GPU‑NDP（Near‑Data Processing）架构 的边缘设备上高效运行。通过解决负载不平衡、GPU 利用率不足以及昂贵的专家预取问题，作者实现了超过 2× 的延迟加速，为在功耗受限的边缘硬件上运行复杂的 AI 工作负载打开了大门。

关键贡献

张量并行 MoE 推理：利用未充分使用的张量并行，将庞大的专家权重划分到多个 NDP 单元上，从而实现低批量边缘推理。
负载均衡感知调度器：在 GPU 与 NDP 核心之间动态分配专家计算，尽管专家激活模式不规则，仍能最大化整体硬件利用率。
无数据集预取：提出一种轻量级、基于统计的策略，预测并提前加载最可能被使用的专家，消除昂贵的分析过程。
全面评估：在真实世界的 MoE 模型上相较于现有最佳边缘 GPU‑NDP 基线，展示出平均 2.41×（峰值 2.56×）的端到端延迟降低。

方法论

专家张量并行

传统的 MoE 推理在单个 NDP 单元上运行每个被选中的专家，当只有少数专家被激活时会导致资源闲置。
作者将每个专家的权重矩阵划分到多个 NDP 核心上（类似于大语言模型中的模型并行）。这使得多个 NDP 单元可以协同处理单个专家，即使批量大小极小也能保持它们忙碌——这在边缘设备上是常见情形。

调度算法

调度器首先对给定输入批次的 专家激活分布 进行剖析（使用低成本的运行时直方图）。
然后它求解一个轻量级的装箱问题，将专家分片映射到 NDP 单元和 GPU，目标是在满足内存约束的前提下均衡计算负载。
仅在激活模式显著变化时重新计算调度，以保持开销低。

无数据集预取

系统不进行完整的数据驱动剖析阶段，而是维护每个专家被选中的次数计数。
高频访问的专家会在推理开始前主动复制到 NDP 的本地内存中，降低这些专家的“冷启动”延迟。

实现细节

基于兼容 CUDA 的 GPU‑NDP 原型构建，每个 NDP 核心配备小容量片上 SRAM 和专用计算流水线。
GPU 端使用标准 CUDA 核心，NDP 端使用自定义微核，通过轻量级运行时库进行编排。

结果与发现

指标	基准（最先进）	提出的框架
端到端延迟（平均）	1.00×（参考）	提升 2.41 倍
峰值延迟改进	–	提升 2.56 倍
GPU 利用率（专家计算期间）	~35 %	~78 %
NDP 单元负载方差（标准差）	高（不平衡）	低（平衡）
预取开销	需要完整数据集分析	可忽略（在线统计）

实验覆盖了多种 MoE 配置（2–8 个专家，隐藏层大小 1K–4K）和真实的边缘工作负载（语音识别、推荐系统）。该框架始终能够降低通常成为边缘 AI 服务瓶颈的尾部延迟。

实际影响

边缘 AI 服务（例如语音助手、设备端推荐）现在可以运行更大、更精确的 MoE 模型，而不会牺牲响应时间。
开发者工具：调度库可以集成到现有的推理堆栈（TensorRT、ONNX Runtime）中，自动利用 NDP 硬件，抽象掉张量并行的复杂性。
硬件设计指南：表明 NDP 单元中适度的片上内存配合智能调度器能够带来超出预期的性能提升，为下一代边缘 GPU‑NDP 芯片设计提供参考。
成本与功耗节省：更高的硬件利用率转化为更低的空闲功耗，延长承载 AI 工作负载的移动和物联网设备的电池寿命。

限制与未来工作

当前调度器假设专家激活分布相对静态；输入领域的快速变化可能需要更频繁的重新调度，从而增加开销。
实验仅限于原型 NDP 平台；将其扩展到具有不同内存层次结构的商业边缘 GPU 可能会暴露出新的瓶颈。
预取策略依赖于简单的频率计数；更复杂的预测模型（例如强化学习）可能进一步降低未命中率。
未来工作包括扩展框架以支持 dynamic MoE routing（在运行时动态选择专家）以及探索用于多边缘场景的 cross‑device scheduling。

作者

Qi Wu
Chao Fang
Jiayuan Chen
Ye Lin
Yueqi Zhang
Yichuan Bai
Yuan Du
Li Du

论文信息

arXiv ID: 2601.03992v1
分类: cs.DC, cs.AI
发表时间: 2026年1月7日
PDF: 下载 PDF

[Paper] 用于 Edge GPU-NDP 系统的高效 MoE 推理调度框架

概述

关键贡献

方法论

专家张量并行

调度算法

无数据集预取

实现细节

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性