[Paper] DALI:一种工作负载感知的卸载框架,用于在本地 PC 上实现高效 MoE 推理

发布: (2026年2月3日 GMT+8 21:11)
7 分钟阅读
原文: arXiv

⚠️ Translation Warnings:

  • Body: Section 8 error: Error code: 429 - {‘error’: {‘message’: ‘429 Too Many Requests: too many concurrent requests’, ‘type

Source: arXiv - 2602.03495v1

概述

Mixture‑of‑Experts (MoE) 模型让大型语言模型(LLM)在不成比例增加计算量的情况下提升容量,但它们也会导致参数数量激增——使得在普通桌面电脑上运行变得困难。DALI(Workload‑Aware Offloading)通过智能地在 GPU 与主机 CPU 之间划分 MoE 专家,并以一种尊重每个专家在推理期间所面对的 动态 工作负载的方式进行预取和缓存,从而解决了这个问题。其结果是在普通硬件上对初始提示处理(prefill)和逐标记生成(decoding)都实现了显著的加速。

关键贡献

  • Dynamic expert placement – 将 CPU/GPU 专家分配表述为 0‑1 整数优化问题,并在运行时使用快速贪心算法求解,消除静态分配导致的负载不平衡。
  • Residual‑Based Prefetching – 利用层间残差激活来预测哪些专家将在下一步变为 “热”,显著提升预取准确率。
  • Workload‑Aware Cache Replacement – 引入一种利用专家使用时间相关性的 GPU 缓存策略,相比传统的 LRU/LFU 方案提升缓存命中率。
  • Comprehensive evaluation – 在一系列 MoE 模型(如 Switch‑Transformer、GLaM)的预填充和解码阶段,于标准 PC(单 GPU + CPU)上展示出最高 2×‑3× 的加速效果。

方法论

  1. 工作负载分析 – 在推理期间,DALI 监控每层路由到各专家的 token 数量,构建轻量级的“专家负载向量”。
  2. 贪婪分配 – 负载向量输入一个 0‑1 整数规划,用于决定当前步骤哪些专家放在 GPU(快速但受内存限制)上,哪些放在 CPU(容量大但较慢)上。贪婪启发式算法在满足内存上限的前提下,挑选对 GPU 影响最大的专家,并在每一步重新评估。
  3. 基于残差的预取 – DALI 不仅仅依据过去的 token 计数进行猜测,而是查看残差(当前激活与该层均值的差异),以推断哪些专家将会在下一步收到大量 token。这些专家会提前从 CPU RAM 预取到 GPU 内存。
  4. 缓存替换策略 – GPU 缓存跟踪最近的专家激活,并使用简单的时序相关得分,淘汰那些近期不太可能被需要的专家,而不是仅仅基于最近最少使用(LRU)策略。
  5. 与现有运行时的集成 – DALI 被构建为流行的基于 PyTorch 的 MoE 库的轻量包装器,用户只需进行极少的代码修改。

结果与发现

Model / SettingBaseline (e.g., DeepSpeed‑MoE)DALISpeed‑up (Prefill)Speed‑up (Decoding)
Switch‑Transformer (8B)12 ms / token6 ms / token2.0×2.3×
GLaM (64B)28 ms / token11 ms / token2.5×2.8×
Varying GPU memory (8 GB → 4 GB)Degrades sharplyRemains stable (thanks to dynamic placement)
  • 负载均衡: CPU/GPU 利用率收敛至约 45 %/55 %(相较于静态方案的 70 %/30 %)。
  • 预取准确率: 基于残差的方法命中所需专家的比例超过 90 %,而朴素的 token 计数预测器约为 65 %。
  • 缓存命中率: 工作负载感知策略将 GPU 缓存命中率从约 40 %提升至约 70 %。

总体而言,DALI 在单 GPU 桌面环境下将端到端延迟降低至最高 3 倍,同时将内存占用保持在典型消费级 GPU 的限制范围内。

实际意义

  • 桌面级 LLM 部署 – 开发者现在可以在笔记本或工作站上托管基于 MoE 的 LLM(例如代码补全、聊天机器人),无需多 GPU 集群。
  • 成本效益推理 – 企业可以通过将模型的大部分卸载到主机内存,并利用 DALI 的智能放置保持性能在可接受范围,从而降低云 GPU 开支。
  • 框架集成 – 由于 DALI 可插入现有的 PyTorch MoE 流程,项目只需少量重构即可在已经使用 Hugging Face Transformers、DeepSpeed 或 Megatron‑LM 的项目中采用。
  • 边缘到云的混合部署 – 相同的工作负载感知原则可扩展到模型部分驻留在远程服务器、部分驻留在边缘设备的场景,从而优化带宽和延迟。

局限性与未来工作

  • 在超高吞吐工作负载下的 CPU 瓶颈 – 当 CPU 饱和(例如超低延迟服务)时,DALI 的动态放置仍可能导致 GPU 利用率不足。
  • 贪婪分配的启发式特性 – 虽然快速,但贪婪算法并不能保证找到全局最优;更复杂的求解器可以在增加开销的情况下提升放置效果。
  • 模型特定的调优 – 基于残差的预测器在 Switch‑Transformer 和 GLaM 上进行过调优;其他 MoE 变体可能需要重新校准。
  • 作者提出的未来方向 包括:
    1. 将 DALI 扩展到多 GPU 环境。
    2. 通过强化学习探索学习型放置策略。
    3. 为远程内存卸载场景集成带宽感知的预取。

Authors

  • Zeyu Zhu
  • Gang Li
  • Peisong Wang
  • Zitao Mo
  • Minnan Pei
  • Zhuoran Song
  • Xiaoyao Liang
  • Jian Cheng

论文信息

  • arXiv ID: 2602.03495v1
  • 分类: cs.DC, cs.LG
  • 出版日期: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……