[论文] Remoe:面向高效且低成本的 MoE 推理在无服务器计算中的实现

发布: (2025年12月21日 GMT+8 18:27)
7 min read
原文: arXiv

Source: arXiv - 2512.18674v1

概述

本文介绍了 Remoe,一个在无服务器环境中使大规模 Mixture‑of‑Experts (MoE) 语言模型推理变得廉价且快速的系统。Remoe 通过巧妙地在 GPU、CPU 和按需无服务器函数之间分配工作,降低了内存压力和计算成本——这些是处理突发 LLM 工作负载时的关键痛点。

关键贡献

  • 异构执行模型 – 非专家(密集)层在 GPU 上运行,专家层在 CPU 上运行;很少使用的专家被卸载到独立的无服务器函数。
  • 相似提示搜索 (SPS) – 一种轻量级算法,通过测量与先前提示的语义相似度,预测新请求将激活哪些专家。
  • 主模型预分配 (MMP) – 最坏情况内存估算器,确保服务水平目标 (SLO) 而不进行过度配置。
  • 联合内存‑副本优化器 – 将放置和复制问题表述为拉格朗日对偶,并使用最长处理时间 (LPT) 启发式算法求解,实现延迟、成本和内存使用的平衡。
  • 在 Kubernetes 上的原型 – 对多个 LLM 基准进行端到端实现和评估,相比之前的方法实现最高 57 % 成本降低47 % 冷启动延迟降低

方法论

1. 系统划分

  • MoE 模型的 (dense)部分保留在 GPU 上,利用其高吞吐进行矩阵乘法。
  • 每个 专家(相对较小的前馈子网络)分配到一个 CPU 核心;由于专家激活是稀疏的,CPU 内存足够。
  • 很少被选中的专家(基于历史激活频率)被打包成独立的无服务器函数(例如 AWS Lambda、Azure Functions)。需要时,函数即时调用,使常驻内存占用极小。

2. 预测专家激活 (SPS)

  • 对于输入的提示,Remoe 计算一个简短的嵌入(例如使用轻量级编码器)。
  • 然后在最近提示的缓存中搜索语义最相似的提示,并复用它们的专家选择模式。
  • 该预测速度快(亚毫秒级),且足够准确以预热所需的无服务器函数。

3. 内存保证 (MMP)

  • 作者推导出任意请求可能同时激活的专家数量的最坏情况上界。
  • 基于该上界,预先分配 GPU/CPU 内存,使得 SLO(例如第 95 百分位延迟 < X ms)在不超额分配资源的前提下得到满足。

4. 优化框架

  • 放置问题(哪个专家放在 CPU 上,哪个放在无服务器)以及复制因子(每个专家保持多少副本)被表述为一个凸拉格朗日函数。
  • 求解对偶问题得到每个决策的边际成本;随后 LPT 启发式算法将专家调度到工作节点,以最小化整体完成时间(整体延迟)。

结果与发现

MetricBaseline (state‑of‑the‑art)Remoe
Inference cost (per 1 M tokens)$0.112$0.048 (‑57 %)
Cold‑start latency210 ms112 ms (‑47 %)
Peak memory usage (GPU)22 GB13 GB (‑41 %)
99‑th‑percentile latency420 ms298 ms (‑29 %)
  • 成本节约主要来源于将大部分专家参数移出 GPU,仅在需要时按需加载。
  • SPS 能够为 > 92 % 的查询正确预测活跃专家集合,从而使额外的无服务器调用开销可以忽略不计。
  • 基于 LPT 的调度器在整体完成时间(makespan)上几乎达到最优,与穷举搜索相比平均误差在 5 % 以内。

实际影响

  • Serverless‑first LLM services – 企业现在可以在不维护大量 GPU 密集型虚拟机的情况下,提供基于 MoE 的聊天机器人或代码生成器;大部分工作负载在廉价的 CPU 或按需付费函数上运行。
  • Cost‑effective burst handling – 在流量高峰期间,Remoe 能够即时扩展无服务器专家,避免为偶发查询而过度预配 GPU 容量。
  • Simplified DevOps – 内存预分配保证使得在 CI/CD 流水线中设定 SLO 更加容易;开发者可以依赖确定性的延迟预算。
  • Edge‑aware deployments – 由于专家可以部署在任何计算节点上,这种模式可用于带宽受限的边缘‑云混合推理。

对于开发者而言,关键的收获是再也不必在“快速但昂贵的 GPU 推理”和“廉价但慢速的密集模型”之间做选择。Remoe 提供了一个折中方案,利用现有的无服务器平台和标准的 Kubernetes 工具。

限制与未来工作

  • 预测准确性权衡 – 对于高度新颖的提示,SPS 可能会误预测专家集合,导致额外的无服务器冷启动。
  • CPU 受限的专家执行 – 虽然大多数专家在 CPU 上已足够,但极大规模的专家网络可能会饱和 CPU 核心,需要进一步的性能分析。
  • 供应商锁定 – 该原型依赖于 Kubernetes 和特定的无服务器运行时;迁移到其他编排系统的可移植性仍需验证。
  • 安全性与隔离 – 将专家卸载到共享的无服务器函数会引发模型泄漏的担忧;未来工作可以探索加密执行或可信执行环境(TEE)。

作者建议将优化器扩展至多租户场景,并探索能够实时从误预测中学习的自适应 SPS 模型。

作者

  • Wentao Liu
  • Yuhao Hu
  • Ruiting Zhou
  • Baochun Li
  • Ne Wang

论文信息

  • arXiv ID: 2512.18674v1
  • 分类: cs.DC, cs.AI
  • 发表日期: 2025年12月21日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »