[Paper] SIMPLE:将采样从 GPU 推理解耦到决策层,以实现更快的分布式 LLM 服务

发布: (2025年11月30日 GMT+8 12:15)
7 min read
原文: arXiv

Source: arXiv - 2512.00719v1

概览

本文提出了 SIMPLE,一种新颖的架构,将大语言模型(LLM)推理中的采样步骤从 GPU 移至轻量级 CPU 服务。通过将这一“决策平面”与高度优化的 GPU 数据平面(注意力、GEMM、KV‑cache)解耦,SIMPLE 消除了限制现代高度并行 LLM 部署的吞吐量和延迟的日益严重的瓶颈。

主要贡献

  • 决策平面解耦: 将采样转变为独立的 CPU 侧服务,可与 GPU 计算并行运行。
  • 序列并行采样: 将批次维度在 CPU 工作节点之间分片,消除昂贵的词表维度集合操作。
  • 线性时间 CPU 采样内核: 引入列式惩罚和“先截断”过滤器,实现单遍 O(词表) 复杂度,无需代价高昂的排序。
  • 投机热词表采样 (SHVS): 动态从一个小的高概率“热”词表中采样,并通过拒绝校正步骤保持精确性,同时大幅降低计算量。
  • 零代码改动集成: SIMPLE 可直接插入现有服务栈,无需修改用户应用或模型代码。

方法论

  1. 管线解耦 – 作者将采样视为独立的微服务。当 GPU 继续计算注意力并更新 KV 缓存时,CPU 并行接收 logits、执行采样并将选中的 token 流回下一管线阶段。
  2. 序列并行工作划分 – 不再在单节点上收集完整的 logits 矩阵(批次 × 词表),每个 CPU 工作节点处理批次的一个切片。这消除了跨词表维度的 all‑reduce,后者是主要的扩展瓶颈。
  3. 高效 CPU 算法
    • 列式惩罚 直接在 logits 列上应用温度、top‑p 等约束,避免对每个 token 进行遍历。
    • 先截断过滤 在任何排序之前快速剔除低概率 token,保证对词表只进行一次线性遍历。
  4. 投机热词表采样 (SHVS)
    • 轻量模型预测能够捕获大部分概率质量的“热”词表大小。
    • 仅在该缩小集合上进行采样;若抽中的 token 超出范围,则通过拒绝步骤重新从完整分布采样,保持精确性。
  5. 与 GPU 工作重叠 – CPU 服务以异步方式运行,其延迟被 GPU 的计算时间隐藏,有效缩短了决策平面在关键路径上的贡献。

结果与发现

指标基线(仅 GPU)SIMPLE改进幅度
端到端吞吐量(token/s)1.0×最高 1.96×+96 %
P95 延迟(每 token)100 ms(示例)35‑80 ms–20 % 至 –65 %
GPU 利用率(最后 PP 阶段)70 %(受采样限制)>90 %
随 TP/PP 的扩展性随 GPU 加速而退化保持线性

关键要点

  • 采用 SIMPLE 后,决策平面在一次迭代中的时间占比从约 30 % 降至 <5 %。
  • SHVS 本身贡献了大部分加速,尤其在针对不同模型/温度调节热词表大小时。
  • SIMPLE 可与现有的张量并行和流水线并行框架(如 Megatron‑LM、DeepSpeed)配合使用,无需代码修改。

实际意义

  • 提升 LLM API 吞吐量: 云服务商可在每块 GPU 上处理更多请求,降低每 token 成本。
  • 降低尾部延迟: 交互式应用(代码助手、聊天机器人)受益于更紧凑的 95 百分位响应时间,提升用户体验。
  • 面向未来的扩展性: 随着 GPU 计算持续加速,决策平面不再成为限制因素,TP/PP 可无阻力扩展。
  • 简化部署: 团队可将 SIMPLE 作为即插即用的服务层采用,避免对模型图或推理代码进行侵入式改动。
  • CPU 友好工作负载: 该方法利用了典型推理集群中未充分利用的 CPU 资源,提高整体硬件效率。

局限性与未来工作

  • CPU 负载均衡: 在极端批次规模下,CPU 端可能出现饱和;自适应负载削减或多节点 CPU 扩展仍待探索。
  • 热词表模型准确性: 当前的热词表大小启发式较为简单;更复杂、模型感知的预测器有望进一步提升吞吐量。
  • 内存开销: 为每个模型维护热词表会占用一定 CPU 内存,对超大词表的情况可能产生非平凡影响。
  • 对非仅解码 LLM 的通用性: 本文聚焦自回归模型;将 SIMPLE 扩展至编码‑解码或多模态架构是后续工作方向。

结论: SIMPLE 证明,将采样步骤迁出 GPU 并为 CPU 并行性重新设计,可几乎将 LLM 服务吞吐量翻倍并显著削减尾部延迟——且无需任何用户代码改动。对于构建可扩展 LLM 服务的开发者而言,它提供了一条务实的路径,以释放下一代性能提升的潜力。

作者

  • Bohan Zhao
  • Zane Cao
  • Yongchao He

论文信息

  • arXiv ID: 2512.00719v1
  • 分类: cs.DC
  • 发布日期: 2025 年 11 月 30 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »