[Paper] WarmServe:实现一对多 GPU 预热以支持多LLM服务

发布: (2025年12月10日 GMT+8 17:47)
7 min read
原文: arXiv

Source: arXiv - 2512.09472v1

概览

在同一 GPU 集群上部署多个大语言模型(LLM)可以提升整体利用率,但往往会增加用户在请求首次到达时看到的延迟——即首个 token 的生成时间(time‑to‑first‑token,TTFT)。全新的 WarmServe 系统通过 预测性“预热” GPU,在模型真正需要之前就将其加载进来,将传统的被动扩缩容方式转变为主动式方案。

关键贡献

  • 一机多模型 GPU 预热:引入 通用 GPU 工作节点,能够根据工作负载预测提前准备任意 LLM。
  • 驱逐感知的模型放置:调度器决定模型的放置位置,确保预热不会在集群中导致代价高昂的驱逐。
  • 零开销内存切换:一种轻量级机制,在不暂停推理的情况下交换 GPU 内存中的模型权重,消除常见的“冷启动”延迟。
  • 真实场景验证:在生产级追踪数据上进行实验,显示相较于自动扩缩基线 TTFT 加速最高 50.8 倍,相较于现有 GPU 共享方案吞吐量提升最高 2.5 倍

方法论

  1. 工作负载预测 – 作者首先分析生产日志,确认 LLM 请求模式高度周期性(例如每日峰值),并将这些预测结果输入调度器。
  2. 通用 GPU 工作节点 – 与其将 GPU 专用于特定模型,不如让每个工作节点运行一个轻量级运行时,能够按需加载任意模型。即使当前没有请求使用,工作节点仍保持 “热” 状态(GPU 内存已分配,内核已初始化)。
  3. 驱逐感知的模型放置 – 当新请求到来时,WarmServe 检查加载所需模型是否会驱逐另一个可能很快再次被需要的模型。如果会,则选择其他 GPU 或推迟驱逐,在内存压力与未来需求之间取得平衡。
  4. 零开销切换 – 模型权重存放在固定的 CPU 端缓冲区。当需要切换时,WarmServe 将所需权重直接流入预先分配的 GPU 内存区域,并与其他请求的推理过程并行传输,从而避免首次加载时的典型暂停。

整个流水线作为一层薄薄的包装运行在现有服务框架之上(如 TensorRT‑LLM、vLLM),便于直接嵌入当前部署。

结果与发现

指标WarmServe vs. 自动扩缩WarmServe vs. GPU 共享
TTFT(中位数)+50.8× 更快(冷启动从约 2 秒降至约 40 毫秒)相当,但整体吞吐量更高
吞吐量每 GPU 1.8 倍请求量整体提升 2.5 倍
GPU 利用率平均 68 %(对比自动扩缩的 45 %)平均 73 %(对比朴素共享的 55 %)
内存开销通用工作节点缓冲区额外 < 5 %可忽略不计

作者还展示了 WarmServe 的主动预热能够平滑应对工作负载突增:当预测到流量激增时,系统已将所需模型驻留在内存中,消除了反应式自动扩缩器常见的“爬坡”延迟。

实际意义

  • 降低终端用户延迟:依赖 LLM 进行聊天、代码补全或实时摘要的应用可以几乎瞬间返回结果,提升用户体验和留存率。
  • 提升 GPU 硬件投资回报率:在相同 GPU 阵列上处理更多请求,云服务商和企业可以推迟昂贵的硬件升级。
  • 运维简化:WarmServe 减少了对自动扩缩阈值和模型放置策略的手动调优需求——大多数决策由工作负载预测器驱动。
  • 兼容现有技术栈:由于 WarmServe 位于流行推理运行时之上,团队无需重写模型代码或重新训练模型即可采用。
  • 边缘部署潜力:通用工作节点概念可扩展至设备端 GPU(如 NVIDIA Jetson),在内存受限但工作负载可预测的场景(例如周期性的语音助手查询)中同样适用。

局限性与未来工作

  • 对预测的依赖:WarmServe 的收益依赖于准确的工作负载预测;突发的、非周期性流量仍可能导致冷启动。
  • 内存占用:维持通用工作节点会产生一定的内存开销,在极小的 GPU 上可能变得显著。
  • 模型大小限制:超大模型若超过单卡显存仍需模型并行,这一情形在当前设计中未得到充分支持。
  • 未来方向:作者提出的进一步研究包括与基于强化学习的调度器更紧密的集成、支持多 GPU 模型分片,以及将该方法推广到其他加速器(TPU、ASIC)等。

作者

  • Chiheng Lou
  • Sheng Qi
  • Rui Kang
  • Yong Zhang
  • Chen Sun
  • Pengcheng Wang
  • Bingyang Liu
  • Xuanzhe Liu
  • Xin Jin

论文信息

  • arXiv ID: 2512.09472v1
  • 分类: cs.DC, cs.LG
  • 发布日期: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »