[Paper] SIMPLE:将采样从 GPU 推理解耦到决策层,以实现更快的分布式 LLM 服务
发布: (2025年11月30日 GMT+8 12:15)
7 min read
原文: arXiv
Source: arXiv - 2512.00719v1
概览
本文提出了 SIMPLE,一种新颖的架构,将大语言模型(LLM)推理中的采样步骤从 GPU 移至轻量级 CPU 服务。通过将这一“决策平面”与高度优化的 GPU 数据平面(注意力、GEMM、KV‑cache)解耦,SIMPLE 消除了限制现代高度并行 LLM 部署的吞吐量和延迟的日益严重的瓶颈。
主要贡献
- 决策平面解耦: 将采样转变为独立的 CPU 侧服务,可与 GPU 计算并行运行。
- 序列并行采样: 将批次维度在 CPU 工作节点之间分片,消除昂贵的词表维度集合操作。
- 线性时间 CPU 采样内核: 引入列式惩罚和“先截断”过滤器,实现单遍 O(词表) 复杂度,无需代价高昂的排序。
- 投机热词表采样 (SHVS): 动态从一个小的高概率“热”词表中采样,并通过拒绝校正步骤保持精确性,同时大幅降低计算量。
- 零代码改动集成: SIMPLE 可直接插入现有服务栈,无需修改用户应用或模型代码。
方法论
- 管线解耦 – 作者将采样视为独立的微服务。当 GPU 继续计算注意力并更新 KV 缓存时,CPU 并行接收 logits、执行采样并将选中的 token 流回下一管线阶段。
- 序列并行工作划分 – 不再在单节点上收集完整的 logits 矩阵(批次 × 词表),每个 CPU 工作节点处理批次的一个切片。这消除了跨词表维度的 all‑reduce,后者是主要的扩展瓶颈。
- 高效 CPU 算法
- 列式惩罚 直接在 logits 列上应用温度、top‑p 等约束,避免对每个 token 进行遍历。
- 先截断过滤 在任何排序之前快速剔除低概率 token,保证对词表只进行一次线性遍历。
- 投机热词表采样 (SHVS)
- 轻量模型预测能够捕获大部分概率质量的“热”词表大小。
- 仅在该缩小集合上进行采样;若抽中的 token 超出范围,则通过拒绝步骤重新从完整分布采样,保持精确性。
- 与 GPU 工作重叠 – CPU 服务以异步方式运行,其延迟被 GPU 的计算时间隐藏,有效缩短了决策平面在关键路径上的贡献。
结果与发现
| 指标 | 基线(仅 GPU) | SIMPLE | 改进幅度 |
|---|---|---|---|
| 端到端吞吐量(token/s) | 1.0× | 最高 1.96× | +96 % |
| P95 延迟(每 token) | 100 ms(示例) | 35‑80 ms | –20 % 至 –65 % |
| GPU 利用率(最后 PP 阶段) | 70 %(受采样限制) | >90 % | — |
| 随 TP/PP 的扩展性 | 随 GPU 加速而退化 | 保持线性 | — |
关键要点
- 采用 SIMPLE 后,决策平面在一次迭代中的时间占比从约 30 % 降至 <5 %。
- SHVS 本身贡献了大部分加速,尤其在针对不同模型/温度调节热词表大小时。
- SIMPLE 可与现有的张量并行和流水线并行框架(如 Megatron‑LM、DeepSpeed)配合使用,无需代码修改。
实际意义
- 提升 LLM API 吞吐量: 云服务商可在每块 GPU 上处理更多请求,降低每 token 成本。
- 降低尾部延迟: 交互式应用(代码助手、聊天机器人)受益于更紧凑的 95 百分位响应时间,提升用户体验。
- 面向未来的扩展性: 随着 GPU 计算持续加速,决策平面不再成为限制因素,TP/PP 可无阻力扩展。
- 简化部署: 团队可将 SIMPLE 作为即插即用的服务层采用,避免对模型图或推理代码进行侵入式改动。
- CPU 友好工作负载: 该方法利用了典型推理集群中未充分利用的 CPU 资源,提高整体硬件效率。
局限性与未来工作
- CPU 负载均衡: 在极端批次规模下,CPU 端可能出现饱和;自适应负载削减或多节点 CPU 扩展仍待探索。
- 热词表模型准确性: 当前的热词表大小启发式较为简单;更复杂、模型感知的预测器有望进一步提升吞吐量。
- 内存开销: 为每个模型维护热词表会占用一定 CPU 内存,对超大词表的情况可能产生非平凡影响。
- 对非仅解码 LLM 的通用性: 本文聚焦自回归模型;将 SIMPLE 扩展至编码‑解码或多模态架构是后续工作方向。
结论: SIMPLE 证明,将采样步骤迁出 GPU 并为 CPU 并行性重新设计,可几乎将 LLM 服务吞吐量翻倍并显著削减尾部延迟——且无需任何用户代码改动。对于构建可扩展 LLM 服务的开发者而言,它提供了一条务实的路径,以释放下一代性能提升的潜力。
作者
- Bohan Zhao
- Zane Cao
- Yongchao He
论文信息
- arXiv ID: 2512.00719v1
- 分类: cs.DC
- 发布日期: 2025 年 11 月 30 日
- PDF: Download PDF