[论文] OServe：通过时空工作负载编排加速 LLM 服务

发布: 3天前 (2026年2月13日 GMT+8 00:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.12151v1

概述

本文介绍了 OServe，一种针对大语言模型（LLMs）的全新服务系统，能够动态适应真实工作负载中空间（不同请求规模和内存占用）和时间（随时间变化的请求组合）异质性。通过编排异构的模型副本并实时切换，OServe 能够将吞吐量提升至现有静态服务堆栈的 2×，同时保持延迟的可预测性。

关键贡献

工作负载感知调度器，根据当前请求分布选择异构模型部署的最佳组合（例如，不同的量化级别、分片策略）。
自适应部署切换机制，在预测的工作负载模式变化时迁移或重新配置模型副本，且不会产生长时间停机。
全面评估在生产级别的追踪数据上显示，相比 vLLM 和 TGI 等最先进的服务框架，平均提升 1.5 倍（最高可达 2 倍）。
开源原型，可与流行的推理运行时（TensorRT‑LLM、PyTorch Serve）集成，并可直接嵌入现有推理流水线。

方法论

表征异构性 – 作者首先对一系列 LLM 部署（全精度、8 位、4 位、张量并行 vs 流水线并行）进行画像，以构建 资源‑性能 查找表（GPU 内存 ↔ 延迟 ↔ 吞吐量）。
实时工作负载监控 – 一个轻量级收集器每秒聚合统计信息：请求长度、标记数以及内存压力。
调度算法 – 利用查找表和实时指标，混合整数线性规划（通过快速启发式算法求解）决定在每个 GPU 节点上运行每种部署类型的副本数量。目标在 吞吐量最大化 与 延迟 SLA 合规 之间取得平衡。
预测切换 – 短期时间序列模型（类似 ARIMA）预测工作负载变化。当预测的变化超过置信阈值时，OServe 会触发 部署迁移：在后台启动新的组合，用少量请求进行预热，然后优雅地清空旧副本。
评估设置 – 实验使用来自云端聊天机器人服务的真实请求轨迹（约 10 k 请求/小时，包含短提示和长完成的混合），在 4 节点 GPU 集群（每节点 8 × A100）上进行。基线包括静态同构部署和流行的 vLLM 调度器。

Results & Findings

Metric	OServe	vLLM (static)	TGI (static)
Throughput (req/s)	2.0× peak, 1.5× avg	1.0×	0.9×
99th‑pct latency	120 ms (SLA met)	210 ms	230 ms
GPU memory utilization	78 % (balanced)	92 % (over‑commit)	85 %
Switching overhead	< 5 % of request volume	N/A	N/A

调度器始终会为高吞吐量的短提示选择低精度（4 位）副本，并为长上下文生成选择全精度分片。
自适应切换降低了“冷启动”惩罚：在工作负载转变后，OServe 能在约 30 秒内达到新的最佳配置，而静态基线则会出现持续的延迟峰值。
能耗下降约 12 %，因为系统可以在不需要时退役高内存副本。

实际影响

云服务提供商的成本节约 – 通过在同一 GPU 队列上承载更多请求，运营商可以推迟硬件升级或降低抢占式实例的支出。
基于 SLA 的 SaaS 产品 – 聊天机器人和代码助手服务即使在流量激增期间（例如产品发布）也能保证更严格的延迟界限。
开发者灵活性 – 团队可以只暴露一个推理端点，OServe 在后台静默切换量化层级或分片策略，从而无需维护多个部署流水线。
边缘与设备端场景 – 同样的原理可应用于异构边缘加速器（CPU、NPU、GPU），这些设备的内存限制差异巨大。

限制与未来工作

模型粒度 – OServe 目前假设一组固定的预编译部署变体；扩展到任意即时量化将提升灵活性。
预测准确性 – 工作负载预测组件在日周期模式下表现良好，但在突发激增（例如闪电式人群）时可能滞后。更鲁棒的在线学习模型是一个有前景的方向。
多租户隔离 – 本文聚焦单租户工作负载；在多个客户之间处理安全性和公平性需要额外的调度约束。
硬件多样性 – 实验仅限于同质的 A100 集群；在混合代 GPU 或新兴加速器（如 Habana、AWS Trainium）上的评估留待后续研究。

作者

Youhe Jiang
Fangcheng Fu
Taiyi Wang
Guoliang He
Eiko Yoneki

论文信息

arXiv ID: 2602.12151v1
分类: cs.DC
发表时间: 2026年2月12日
PDF: 下载 PDF

相关文章

阅读更多 »

SRE 与 DevOps 并非错误的选择：这里有可行的统一模型

DevOps 和 site reliability engineering（SRE）是互补的策略，能够提升软件开发的速度和可靠性。虽然 DevOps 侧重于…

使用 HashiCorp Vault 和 WIF 保护现代工作负载

现代企业正日益采用云原生模式，在多个云平台、Kubernetes 集群和 CI/CD 流水线中运行工作负载。对于 CIO、CISO 以及技术…

当开放网络遇上 AI 编码：智能企业应用的海啸

企业技术格局正处于重大转型的边缘，由两大关键趋势驱动：开放的电信网络 API 和 AI 驱动的编码平台……

从加速到暴露：为何 AI 需要成熟的 AppSec

对于大多数工程团队来说，AI 感觉像是多年酝酿的突破。代码编写速度更快，审查更迅速，曾经需要数周才能完成的发布……