[论文] Remoe:面向高效且低成本的 MoE 推理在无服务器计算中的实现
发布: (2025年12月21日 GMT+8 18:27)
7 min read
原文: arXiv
Source: arXiv - 2512.18674v1
概述
本文介绍了 Remoe,一个在无服务器环境中使大规模 Mixture‑of‑Experts (MoE) 语言模型推理变得廉价且快速的系统。Remoe 通过巧妙地在 GPU、CPU 和按需无服务器函数之间分配工作,降低了内存压力和计算成本——这些是处理突发 LLM 工作负载时的关键痛点。
关键贡献
- 异构执行模型 – 非专家(密集)层在 GPU 上运行,专家层在 CPU 上运行;很少使用的专家被卸载到独立的无服务器函数。
- 相似提示搜索 (SPS) – 一种轻量级算法,通过测量与先前提示的语义相似度,预测新请求将激活哪些专家。
- 主模型预分配 (MMP) – 最坏情况内存估算器,确保服务水平目标 (SLO) 而不进行过度配置。
- 联合内存‑副本优化器 – 将放置和复制问题表述为拉格朗日对偶,并使用最长处理时间 (LPT) 启发式算法求解,实现延迟、成本和内存使用的平衡。
- 在 Kubernetes 上的原型 – 对多个 LLM 基准进行端到端实现和评估,相比之前的方法实现最高 57 % 成本降低 和 47 % 冷启动延迟降低。
方法论
1. 系统划分
- MoE 模型的 主(dense)部分保留在 GPU 上,利用其高吞吐进行矩阵乘法。
- 每个 专家(相对较小的前馈子网络)分配到一个 CPU 核心;由于专家激活是稀疏的,CPU 内存足够。
- 很少被选中的专家(基于历史激活频率)被打包成独立的无服务器函数(例如 AWS Lambda、Azure Functions)。需要时,函数即时调用,使常驻内存占用极小。
2. 预测专家激活 (SPS)
- 对于输入的提示,Remoe 计算一个简短的嵌入(例如使用轻量级编码器)。
- 然后在最近提示的缓存中搜索语义最相似的提示,并复用它们的专家选择模式。
- 该预测速度快(亚毫秒级),且足够准确以预热所需的无服务器函数。
3. 内存保证 (MMP)
- 作者推导出任意请求可能同时激活的专家数量的最坏情况上界。
- 基于该上界,预先分配 GPU/CPU 内存,使得 SLO(例如第 95 百分位延迟 < X ms)在不超额分配资源的前提下得到满足。
4. 优化框架
- 放置问题(哪个专家放在 CPU 上,哪个放在无服务器)以及复制因子(每个专家保持多少副本)被表述为一个凸拉格朗日函数。
- 求解对偶问题得到每个决策的边际成本;随后 LPT 启发式算法将专家调度到工作节点,以最小化整体完成时间(整体延迟)。
结果与发现
| Metric | Baseline (state‑of‑the‑art) | Remoe |
|---|---|---|
| Inference cost (per 1 M tokens) | $0.112 | $0.048 (‑57 %) |
| Cold‑start latency | 210 ms | 112 ms (‑47 %) |
| Peak memory usage (GPU) | 22 GB | 13 GB (‑41 %) |
| 99‑th‑percentile latency | 420 ms | 298 ms (‑29 %) |
- 成本节约主要来源于将大部分专家参数移出 GPU,仅在需要时按需加载。
- SPS 能够为 > 92 % 的查询正确预测活跃专家集合,从而使额外的无服务器调用开销可以忽略不计。
- 基于 LPT 的调度器在整体完成时间(makespan)上几乎达到最优,与穷举搜索相比平均误差在 5 % 以内。
实际影响
- Serverless‑first LLM services – 企业现在可以在不维护大量 GPU 密集型虚拟机的情况下,提供基于 MoE 的聊天机器人或代码生成器;大部分工作负载在廉价的 CPU 或按需付费函数上运行。
- Cost‑effective burst handling – 在流量高峰期间,Remoe 能够即时扩展无服务器专家,避免为偶发查询而过度预配 GPU 容量。
- Simplified DevOps – 内存预分配保证使得在 CI/CD 流水线中设定 SLO 更加容易;开发者可以依赖确定性的延迟预算。
- Edge‑aware deployments – 由于专家可以部署在任何计算节点上,这种模式可用于带宽受限的边缘‑云混合推理。
对于开发者而言,关键的收获是再也不必在“快速但昂贵的 GPU 推理”和“廉价但慢速的密集模型”之间做选择。Remoe 提供了一个折中方案,利用现有的无服务器平台和标准的 Kubernetes 工具。
限制与未来工作
- 预测准确性权衡 – 对于高度新颖的提示,SPS 可能会误预测专家集合,导致额外的无服务器冷启动。
- CPU 受限的专家执行 – 虽然大多数专家在 CPU 上已足够,但极大规模的专家网络可能会饱和 CPU 核心,需要进一步的性能分析。
- 供应商锁定 – 该原型依赖于 Kubernetes 和特定的无服务器运行时;迁移到其他编排系统的可移植性仍需验证。
- 安全性与隔离 – 将专家卸载到共享的无服务器函数会引发模型泄漏的担忧;未来工作可以探索加密执行或可信执行环境(TEE)。
作者建议将优化器扩展至多租户场景,并探索能够实时从误预测中学习的自适应 SPS 模型。
作者
- Wentao Liu
- Yuhao Hu
- Ruiting Zhou
- Baochun Li
- Ne Wang
论文信息
- arXiv ID: 2512.18674v1
- 分类: cs.DC, cs.AI
- 发表日期: 2025年12月21日
- PDF: 下载 PDF