[Paper] DALI：一种工作负载感知的卸载框架，用于在本地 PC 上实现高效 MoE 推理

发布: 5天前 (2026年2月3日 GMT+8 21:11)

7 分钟阅读

原文: arXiv

⚠️ Translation Warnings:

Body: Section 8 error: Error code: 429 - {‘error’: {‘message’: ‘429 Too Many Requests: too many concurrent requests’, ‘type

Source: arXiv - 2602.03495v1

概述

Mixture‑of‑Experts (MoE) 模型让大型语言模型（LLM）在不成比例增加计算量的情况下提升容量，但它们也会导致参数数量激增——使得在普通桌面电脑上运行变得困难。DALI（Workload‑Aware Offloading）通过智能地在 GPU 与主机 CPU 之间划分 MoE 专家，并以一种尊重每个专家在推理期间所面对的动态工作负载的方式进行预取和缓存，从而解决了这个问题。其结果是在普通硬件上对初始提示处理（prefill）和逐标记生成（decoding）都实现了显著的加速。

关键贡献

Dynamic expert placement – 将 CPU/GPU 专家分配表述为 0‑1 整数优化问题，并在运行时使用快速贪心算法求解，消除静态分配导致的负载不平衡。
Residual‑Based Prefetching – 利用层间残差激活来预测哪些专家将在下一步变为 “热”，显著提升预取准确率。
Workload‑Aware Cache Replacement – 引入一种利用专家使用时间相关性的 GPU 缓存策略，相比传统的 LRU/LFU 方案提升缓存命中率。
Comprehensive evaluation – 在一系列 MoE 模型（如 Switch‑Transformer、GLaM）的预填充和解码阶段，于标准 PC（单 GPU + CPU）上展示出最高 2×‑3× 的加速效果。

方法论

工作负载分析 – 在推理期间，DALI 监控每层路由到各专家的 token 数量，构建轻量级的“专家负载向量”。
贪婪分配 – 负载向量输入一个 0‑1 整数规划，用于决定当前步骤哪些专家放在 GPU（快速但受内存限制）上，哪些放在 CPU（容量大但较慢）上。贪婪启发式算法在满足内存上限的前提下，挑选对 GPU 影响最大的专家，并在每一步重新评估。
基于残差的预取 – DALI 不仅仅依据过去的 token 计数进行猜测，而是查看残差（当前激活与该层均值的差异），以推断哪些专家将会在下一步收到大量 token。这些专家会提前从 CPU RAM 预取到 GPU 内存。
缓存替换策略 – GPU 缓存跟踪最近的专家激活，并使用简单的时序相关得分，淘汰那些近期不太可能被需要的专家，而不是仅仅基于最近最少使用（LRU）策略。
与现有运行时的集成 – DALI 被构建为流行的基于 PyTorch 的 MoE 库的轻量包装器，用户只需进行极少的代码修改。

结果与发现

Model / Setting	Baseline (e.g., DeepSpeed‑MoE)	DALI	Speed‑up (Prefill)	Speed‑up (Decoding)
Switch‑Transformer (8B)	12 ms / token	6 ms / token	2.0×	2.3×
GLaM (64B)	28 ms / token	11 ms / token	2.5×	2.8×
Varying GPU memory (8 GB → 4 GB)	Degrades sharply	Remains stable (thanks to dynamic placement)	–	–

负载均衡: CPU/GPU 利用率收敛至约 45 %/55 %（相较于静态方案的 70 %/30 %）。
预取准确率: 基于残差的方法命中所需专家的比例超过 90 %，而朴素的 token 计数预测器约为 65 %。
缓存命中率: 工作负载感知策略将 GPU 缓存命中率从约 40 %提升至约 70 %。

总体而言，DALI 在单 GPU 桌面环境下将端到端延迟降低至最高 3 倍，同时将内存占用保持在典型消费级 GPU 的限制范围内。

实际意义

桌面级 LLM 部署 – 开发者现在可以在笔记本或工作站上托管基于 MoE 的 LLM（例如代码补全、聊天机器人），无需多 GPU 集群。
成本效益推理 – 企业可以通过将模型的大部分卸载到主机内存，并利用 DALI 的智能放置保持性能在可接受范围，从而降低云 GPU 开支。
框架集成 – 由于 DALI 可插入现有的 PyTorch MoE 流程，项目只需少量重构即可在已经使用 Hugging Face Transformers、DeepSpeed 或 Megatron‑LM 的项目中采用。
边缘到云的混合部署 – 相同的工作负载感知原则可扩展到模型部分驻留在远程服务器、部分驻留在边缘设备的场景，从而优化带宽和延迟。

局限性与未来工作

在超高吞吐工作负载下的 CPU 瓶颈 – 当 CPU 饱和（例如超低延迟服务）时，DALI 的动态放置仍可能导致 GPU 利用率不足。
贪婪分配的启发式特性 – 虽然快速，但贪婪算法并不能保证找到全局最优；更复杂的求解器可以在增加开销的情况下提升放置效果。
模型特定的调优 – 基于残差的预测器在 Switch‑Transformer 和 GLaM 上进行过调优；其他 MoE 变体可能需要重新校准。
作者提出的未来方向 包括：
1. 将 DALI 扩展到多 GPU 环境。
2. 通过强化学习探索学习型放置策略。
3. 为远程内存卸载场景集成带宽感知的预取。

Authors

Zeyu Zhu
Gang Li
Peisong Wang
Zitao Mo
Minnan Pei
Zhuoran Song
Xiaoyao Liang
Jian Cheng

论文信息

arXiv ID: 2602.03495v1
分类: cs.DC, cs.LG
出版日期: 2026年2月3日
PDF: 下载 PDF

[Paper] DALI：一种工作负载感知的卸载框架，用于在本地 PC 上实现高效 MoE 推理

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

Authors

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同