[Paper] 单池,双缓存:自适应 HBM 分区以加速生成式推荐服务

发布: (2026年5月6日 GMT+8 11:25)
9 分钟阅读
原文: arXiv

Source: arXiv - 2605.04450v1

概述

本文介绍了 HELM,一种运行时系统,它在生成式推荐模型使用的两种竞争缓存——嵌入热点缓存(EMB)和键值(KV)缓存之间,动态划分 GPU 高带宽内存(HBM)。通过持续调整内存分配并智能路由请求,HELM 能弥补静态分配留下的 20‑30 % 延迟差距,同时保持吞吐量不变。

关键贡献

  • 联合HBM分配与请求路由 – 首个将 EMB 和 KV 缓存视为耦合资源的系统,而不是分别进行优化。
  • 三层PPO控制器 – 一种轻量级强化学习(近端策略优化)控制器,结合了冻结的基础策略、在线残差适配器和突发感知恢复模块,能够在约 32 µs 内给出决策。
  • KV感知调度算法 – 根据当前 KV 驻留情况、嵌入局部性和节点负载对推理请求进行路由,防止在突发期间昂贵的 H2D 数据重新填充。
  • 真实场景评估 – 在 32 节点 A100 集群上,针对稳态、趋势和突发工作负载展示了 24‑38 % P99 延迟降低和 >93 % SLO 合规率,优于最先进的基线。
  • 实用的延迟最优性 – 保持在离线最优 EMB/KV 内存比例的 0.024–0.029 范围内,这种精度在在线系统中很少实现。

方法论

  1. 问题建模 – 作者将 EMB/KV 内存划分建模为一个连续控制问题:目标是选择一个比例,使尾部延迟最小化,同时满足每个 GPU 固定的 HBM 容量限制。

  2. 三层 PPO 控制器

    • 基础策略:在历史工作负载轨迹上离线训练;在服务期间保持冻结,以提供强先验。
    • 残差适配器:轻量级在线学习器,利用近期延迟反馈微调基础决策,实现对工作负载变化的快速适应。
    • 突发感知恢复:检测突发流量峰值,并暂时覆盖残差适配器,以避免对瞬时噪声的过度反应。

    控制器消耗一个紧凑的状态向量(例如近期缓存命中率、请求到达率、节点负载),并每隔几毫秒输出一个新的 EMB‑to‑KV 比例。

  3. EMB‑KV‑感知调度 – 当请求到达时,调度器检查:

    • 其所需的 KV 条目是否已经存在于当前 GPU 的 KV 缓存中。
    • 嵌入向量的局部性(倾向于选择嵌入热点所在的 GPU)。
    • 每个节点的当前负载。

    然后选择最佳 GPU,避免代价高昂的主机‑到‑设备(H2D)重新填充,从而防止关键路径阻塞。

  4. 评估设置 – 实验使用三个生产规模的推荐数据集、一个 32 节点的 NVIDIA A100 集群,以及三种工作负载模式(稳态、趋势、突发)。基线包括静态内存划分、独立的 EMB/KV 优化器以及已有的自适应缓存管理器。

结果与发现

指标静态最佳先前自适应HELM
P99 延迟相对于静态的降低12–18 %24–38 %
SLO(第 99 百分位)满足度70–85 %80–92 %93.5–99.6 %
吞吐量影响基准线~‑2 %~0 %(保持不变)
决策延迟(控制器)N/AN/A≈32 µs
内存‑比率最优性差距0.05–0.070.03–0.040.024–0.029
  • 最佳的 EMB/KV 划分在从稳定状态转向突发状态时,可能会变化高达 0.35(相当于 HBM 的 35 %);HELM 实时跟踪此变化。
  • 天真的重新分配(例如,在未进行调度的情况下即时移动内存)导致超过 40 % 的突发出现 P99 违规;HELM 的联合调度器消除了这些违规。
  • 即使在极端突发峰值下,突发感知的恢复控制器也将延迟峰值限制在可控范围,使系统能够在几毫秒内“快速恢复”到最佳比例。

实际影响

  • 可部署在现有 GPU 集群上 – HELM 作为轻量运行时层运行在标准推理框架之上(例如 TensorRT、PyTorch),仅需度量钩子(缓存命中率、请求时间戳)。
  • 成本节约 – 通过在相同硬件上进一步压缩延迟,运营商可以每块 GPU 服务更多用户,或在不增加昂贵节点的情况下满足更严格的 SLA。
  • 可推广的模式 – 三层 PPO 架构可以重新用于任何多个内存结构争夺固定加速器内存预算的场景(例如 transformer 的 KV 缓存与激活缓冲区)。
  • 提升用户体验 – 更低的尾部延迟直接转化为更快的推荐刷新、更高的点击率以及产品团队更好的 A/B 测试结果。
  • 简化运维 – 系统会自动适应工作负载趋势(例如季节性流量高峰),无需手动重新调节缓存大小,从而减轻 MLOps 工程师的运维负担。

限制与未来工作

  • GPU 特定 – HELM 在 NVIDIA A100 GPU 上进行评估;迁移到其他加速器(例如 AMD Instinct、Intel Xe GPU)可能需要重新训练基础策略,因为它们的内存层次结构不同。
  • 模型无关的假设 – 该方法假设嵌入层和 KV 缓存之间有明确的分离;如果模型将这些结构融合或使用其他内存布局,可能需要进行定制适配。
  • 训练开销 – 虽然在线残差适配器轻量,但基础策略的离线初始训练仍需一个具代表性的工作负载轨迹,这对新服务来说可能成本较高。
  • 状态收集的可扩展性 – 在亚毫秒粒度收集细粒度缓存统计信息可能在极大规模集群上成为瓶颈;未来工作可以探索分层或抽样遥测方式。
  • 扩展到多租户场景 – 当前调度器对所有请求一视同仁;在租户之间加入优先级或公平性保证是一个待探索的方向。

总体而言,HELM 展示了紧耦合的内存分配与请求路由策略如何为生成式推荐服务释放显著的延迟提升,为希望从 GPU 阵列中挤出更多性能的生产团队提供了实用的蓝图。

作者

  • Wenjun Yu
  • Shuguang Han
  • Amelie Chi Zhou

论文信息

  • arXiv ID: 2605.04450v1
  • 分类: cs.DC, cs.IR, cs.LG
  • 发布日期: 2026年5月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »