[论文] Remoe：面向高效且低成本的 MoE 推理在无服务器计算中的实现

发布: 1周前 (2025年12月21日 GMT+8 18:27)

7 min read

原文: arXiv

Source: arXiv - 2512.18674v1

概述

本文介绍了 Remoe，一个在无服务器环境中使大规模 Mixture‑of‑Experts (MoE) 语言模型推理变得廉价且快速的系统。Remoe 通过巧妙地在 GPU、CPU 和按需无服务器函数之间分配工作，降低了内存压力和计算成本——这些是处理突发 LLM 工作负载时的关键痛点。

异构执行模型 – 非专家（密集）层在 GPU 上运行，专家层在 CPU 上运行；很少使用的专家被卸载到独立的无服务器函数。
相似提示搜索 (SPS) – 一种轻量级算法，通过测量与先前提示的语义相似度，预测新请求将激活哪些专家。
主模型预分配 (MMP) – 最坏情况内存估算器，确保服务水平目标 (SLO) 而不进行过度配置。
联合内存‑副本优化器 – 将放置和复制问题表述为拉格朗日对偶，并使用最长处理时间 (LPT) 启发式算法求解，实现延迟、成本和内存使用的平衡。
在 Kubernetes 上的原型 – 对多个 LLM 基准进行端到端实现和评估，相比之前的方法实现最高 57 % 成本降低 和 47 % 冷启动延迟降低。

MoE 模型的主（dense）部分保留在 GPU 上，利用其高吞吐进行矩阵乘法。
每个专家（相对较小的前馈子网络）分配到一个 CPU 核心；由于专家激活是稀疏的，CPU 内存足够。
很少被选中的专家（基于历史激活频率）被打包成独立的无服务器函数（例如 AWS Lambda、Azure Functions）。需要时，函数即时调用，使常驻内存占用极小。

Serverless‑first LLM services – 企业现在可以在不维护大量 GPU 密集型虚拟机的情况下，提供基于 MoE 的聊天机器人或代码生成器；大部分工作负载在廉价的 CPU 或按需付费函数上运行。
Cost‑effective burst handling – 在流量高峰期间，Remoe 能够即时扩展无服务器专家，避免为偶发查询而过度预配 GPU 容量。
Simplified DevOps – 内存预分配保证使得在 CI/CD 流水线中设定 SLO 更加容易；开发者可以依赖确定性的延迟预算。
Edge‑aware deployments – 由于专家可以部署在任何计算节点上，这种模式可用于带宽受限的边缘‑云混合推理。

对于开发者而言，关键的收获是再也不必在“快速但昂贵的 GPU 推理”和“廉价但慢速的密集模型”之间做选择。Remoe 提供了一个折中方案，利用现有的无服务器平台和标准的 Kubernetes 工具。

作者建议将优化器扩展至多租户场景，并探索能够实时从误预测中学习的自适应 SPS 模型。