[Paper] SIMPLE：将采样从 GPU 推理解耦到决策层，以实现更快的分布式 LLM 服务

发布: 5天前 (2025年11月30日 GMT+8 12:15)

7 min read

原文: arXiv

Source: arXiv - 2512.00719v1

概览

本文提出了 SIMPLE，一种新颖的架构，将大语言模型（LLM）推理中的采样步骤从 GPU 移至轻量级 CPU 服务。通过将这一“决策平面”与高度优化的 GPU 数据平面（注意力、GEMM、KV‑cache）解耦，SIMPLE 消除了限制现代高度并行 LLM 部署的吞吐量和延迟的日益严重的瓶颈。

主要贡献

决策平面解耦： 将采样转变为独立的 CPU 侧服务，可与 GPU 计算并行运行。
序列并行采样： 将批次维度在 CPU 工作节点之间分片，消除昂贵的词表维度集合操作。
线性时间 CPU 采样内核： 引入列式惩罚和“先截断”过滤器，实现单遍 O(词表) 复杂度，无需代价高昂的排序。
投机热词表采样 (SHVS)： 动态从一个小的高概率“热”词表中采样，并通过拒绝校正步骤保持精确性，同时大幅降低计算量。
零代码改动集成： SIMPLE 可直接插入现有服务栈，无需修改用户应用或模型代码。

方法论

管线解耦 – 作者将采样视为独立的微服务。当 GPU 继续计算注意力并更新 KV 缓存时，CPU 并行接收 logits、执行采样并将选中的 token 流回下一管线阶段。
序列并行工作划分 – 不再在单节点上收集完整的 logits 矩阵（批次 × 词表），每个 CPU 工作节点处理批次的一个切片。这消除了跨词表维度的 all‑reduce，后者是主要的扩展瓶颈。
高效 CPU 算法
- 列式惩罚 直接在 logits 列上应用温度、top‑p 等约束，避免对每个 token 进行遍历。
- 先截断过滤 在任何排序之前快速剔除低概率 token，保证对词表只进行一次线性遍历。
投机热词表采样 (SHVS)
- 轻量模型预测能够捕获大部分概率质量的“热”词表大小。
- 仅在该缩小集合上进行采样；若抽中的 token 超出范围，则通过拒绝步骤重新从完整分布采样，保持精确性。
与 GPU 工作重叠 – CPU 服务以异步方式运行，其延迟被 GPU 的计算时间隐藏，有效缩短了决策平面在关键路径上的贡献。

结果与发现

指标	基线（仅 GPU）	SIMPLE	改进幅度
端到端吞吐量（token/s）	1.0×	最高 1.96×	+96 %
P95 延迟（每 token）	100 ms（示例）	35‑80 ms	–20 % 至 –65 %
GPU 利用率（最后 PP 阶段）	70 %（受采样限制）	>90 %	—
随 TP/PP 的扩展性	随 GPU 加速而退化	保持线性	—

关键要点

采用 SIMPLE 后，决策平面在一次迭代中的时间占比从约 30 % 降至 <5 %。
SHVS 本身贡献了大部分加速，尤其在针对不同模型/温度调节热词表大小时。
SIMPLE 可与现有的张量并行和流水线并行框架（如 Megatron‑LM、DeepSpeed）配合使用，无需代码修改。

实际意义

提升 LLM API 吞吐量： 云服务商可在每块 GPU 上处理更多请求，降低每 token 成本。
降低尾部延迟： 交互式应用（代码助手、聊天机器人）受益于更紧凑的 95 百分位响应时间，提升用户体验。
面向未来的扩展性： 随着 GPU 计算持续加速，决策平面不再成为限制因素，TP/PP 可无阻力扩展。
简化部署： 团队可将 SIMPLE 作为即插即用的服务层采用，避免对模型图或推理代码进行侵入式改动。
CPU 友好工作负载： 该方法利用了典型推理集群中未充分利用的 CPU 资源，提高整体硬件效率。

局限性与未来工作

CPU 负载均衡： 在极端批次规模下，CPU 端可能出现饱和；自适应负载削减或多节点 CPU 扩展仍待探索。
热词表模型准确性： 当前的热词表大小启发式较为简单；更复杂、模型感知的预测器有望进一步提升吞吐量。
内存开销： 为每个模型维护热词表会占用一定 CPU 内存，对超大词表的情况可能产生非平凡影响。
对非仅解码 LLM 的通用性： 本文聚焦自回归模型；将 SIMPLE 扩展至编码‑解码或多模态架构是后续工作方向。

结论： SIMPLE 证明，将采样步骤迁出 GPU 并为 CPU 并行性重新设计，可几乎将 LLM 服务吞吐量翻倍并显著削减尾部延迟——且无需任何用户代码改动。对于构建可扩展 LLM 服务的开发者而言，它提供了一条务实的路径，以释放下一代性能提升的潜力。

作者

Bohan Zhao
Zane Cao
Yongchao He

论文信息

arXiv ID: 2512.00719v1
分类: cs.DC
发布日期: 2025 年 11 月 30 日
PDF: Download PDF

[Paper] SIMPLE：将采样从 GPU 推理解耦到决策层，以实现更快的分布式 LLM 服务

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用于太赫兹无线通信的联邦学习

[Paper] FLEX：利用 FPGA‑CPU 协同加速 Mixed-Cell-Height Legalization

[论文] 卸载到基于 CXL 的计算内存

[Paper] 面向结构感知的不规则阻塞稀疏 LU 分解方法