[Paper] WarmServe：实现一对多 GPU 预热以支持多LLM服务

发布: 2个月前 (2025年12月10日 GMT+8 17:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09472v1

概览

在同一 GPU 集群上部署多个大语言模型（LLM）可以提升整体利用率，但往往会增加用户在请求首次到达时看到的延迟——即首个 token 的生成时间（time‑to‑first‑token，TTFT）。全新的 WarmServe 系统通过 预测性“预热” GPU，在模型真正需要之前就将其加载进来，将传统的被动扩缩容方式转变为主动式方案。

关键贡献

一机多模型 GPU 预热：引入 通用 GPU 工作节点，能够根据工作负载预测提前准备任意 LLM。
驱逐感知的模型放置：调度器决定模型的放置位置，确保预热不会在集群中导致代价高昂的驱逐。
零开销内存切换：一种轻量级机制，在不暂停推理的情况下交换 GPU 内存中的模型权重，消除常见的“冷启动”延迟。
真实场景验证：在生产级追踪数据上进行实验，显示相较于自动扩缩基线 TTFT 加速最高 50.8 倍，相较于现有 GPU 共享方案吞吐量提升最高 2.5 倍。

方法论

工作负载预测 – 作者首先分析生产日志，确认 LLM 请求模式高度周期性（例如每日峰值），并将这些预测结果输入调度器。
通用 GPU 工作节点 – 与其将 GPU 专用于特定模型，不如让每个工作节点运行一个轻量级运行时，能够按需加载任意模型。即使当前没有请求使用，工作节点仍保持 “热” 状态（GPU 内存已分配，内核已初始化）。
驱逐感知的模型放置 – 当新请求到来时，WarmServe 检查加载所需模型是否会驱逐另一个可能很快再次被需要的模型。如果会，则选择其他 GPU 或推迟驱逐，在内存压力与未来需求之间取得平衡。
零开销切换 – 模型权重存放在固定的 CPU 端缓冲区。当需要切换时，WarmServe 将所需权重直接流入预先分配的 GPU 内存区域，并与其他请求的推理过程并行传输，从而避免首次加载时的典型暂停。

整个流水线作为一层薄薄的包装运行在现有服务框架之上（如 TensorRT‑LLM、vLLM），便于直接嵌入当前部署。

结果与发现

指标	WarmServe vs. 自动扩缩	WarmServe vs. GPU 共享
TTFT（中位数）	+50.8× 更快（冷启动从约 2 秒降至约 40 毫秒）	相当，但整体吞吐量更高
吞吐量	每 GPU 1.8 倍请求量	整体提升 2.5 倍
GPU 利用率	平均 68 %（对比自动扩缩的 45 %）	平均 73 %（对比朴素共享的 55 %）
内存开销	通用工作节点缓冲区额外 < 5 %	可忽略不计

作者还展示了 WarmServe 的主动预热能够平滑应对工作负载突增：当预测到流量激增时，系统已将所需模型驻留在内存中，消除了反应式自动扩缩器常见的“爬坡”延迟。

实际意义

降低终端用户延迟：依赖 LLM 进行聊天、代码补全或实时摘要的应用可以几乎瞬间返回结果，提升用户体验和留存率。
提升 GPU 硬件投资回报率：在相同 GPU 阵列上处理更多请求，云服务商和企业可以推迟昂贵的硬件升级。
运维简化：WarmServe 减少了对自动扩缩阈值和模型放置策略的手动调优需求——大多数决策由工作负载预测器驱动。
兼容现有技术栈：由于 WarmServe 位于流行推理运行时之上，团队无需重写模型代码或重新训练模型即可采用。
边缘部署潜力：通用工作节点概念可扩展至设备端 GPU（如 NVIDIA Jetson），在内存受限但工作负载可预测的场景（例如周期性的语音助手查询）中同样适用。

局限性与未来工作

对预测的依赖：WarmServe 的收益依赖于准确的工作负载预测；突发的、非周期性流量仍可能导致冷启动。
内存占用：维持通用工作节点会产生一定的内存开销，在极小的 GPU 上可能变得显著。
模型大小限制：超大模型若超过单卡显存仍需模型并行，这一情形在当前设计中未得到充分支持。
未来方向：作者提出的进一步研究包括与基于强化学习的调度器更紧密的集成、支持多 GPU 模型分片，以及将该方法推广到其他加速器（TPU、ASIC）等。

作者

Chiheng Lou
Sheng Qi
Rui Kang
Yong Zhang
Chen Sun
Pengcheng Wang
Bingyang Liu
Xuanzhe Liu
Xin Jin

论文信息

arXiv ID: 2512.09472v1
分类: cs.DC, cs.LG
发布日期: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] WarmServe：实现一对多 GPU 预热以支持多LLM服务

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型