[论文] LatencyPrism:在线非侵入式延迟塑形,实现 SLO 保证的 LLM 推理

发布: (2026年1月14日 GMT+8 15:46)
7 min read
原文: arXiv

Source: arXiv - 2601.09258v1

概述

LatencyPrism 是一个生产级系统,允许运维人员在 不触及运行代码或重启服务 的情况下监控并“塑造”大型语言模型(LLM)推理管道的延迟。通过对端到端延迟进行拆解、在毫秒级标记异常,并将 SLO(Service Level Objective)违规保持在可控范围内,它解决了许多 AI 驱动产品面临的痛点:即使平均延迟看起来正常,偶尔的延迟峰值也会破坏用户体验。

关键贡献

  • Zero‑intrusion latency monitoring 能在异构硬件(GPU、TPU、其他 XPU)和软件栈之间工作,无需修改代码或重启服务。
  • Real‑time, batch‑level profiling 具备亚秒级告警延迟,使运维人员能够在问题发生时即时响应。
  • Anomaly detection model 能将正常工作负载导致的延迟波动与真实的性能回退区分开来,在生产数据上实现了 0.98 的 F1‑score。
  • Multi‑platform latency sculpting:系统可以自动限流或重新路由请求,以保持延迟在 SLO 范围内。
  • Extensive field deployment:已在数千台 XPU 上的生产环境中验证超过六个月,展示了稳定性和低开销。

方法论

  1. 无仪器数据收集 – LatencyPrism 通过侧信道挂钩接入现有遥测(例如操作系统计数器、XPU 驱动统计、网络时间戳),不干扰推理代码路径。
  2. 管道分解 – 将端到端请求拆分为逻辑阶段(前处理、令牌生成、后处理等)。统计模型从原始时间戳推断每个阶段的贡献。
  3. 在线异常检测 – 轻量级流式分类器(基于自适应阈值的高斯混合模型)持续为延迟批次打分。当分数超过动态界限时,触发警报。
  4. SLO 感知的限流 – 检测到潜在违约后,系统可施加背压或将流量重定向至负载较低的节点,实质上“塑造”延迟分布,使其保持在目标分位数内。
  5. 根因辅助 – 将异常信号与硬件利用率、队列长度以及模型特定指标关联,帮助工程师定位峰值是来源于模型、硬件还是周边基础设施。

结果与发现

MetricObservation
Alert latency从突发出现到生成警报的中位数为 12 ms
Detection accuracy在包含正常和异常运行的平衡混合的 1.2 M 推理批次标记数据集上,F1‑score = 0.98
Overhead平均增加 ≤ 1.5 % CPU 和 ≤ 0.8 % XPU 利用率,对吞吐量影响可忽略不计。
SLO compliance将 99 百分位延迟违规降低了 42 %,覆盖 3,400 台 XPU 的机群。
Root‑cause resolution time平均定位根本问题的时间从 45 min(LatencyPrism 前)下降至 7 min

实验还表明,LatencyPrism 能够以高置信度区分合法的工作负载驱动的延迟增长(例如,更大的批量大小)和真实异常(例如,驱动程序错误、热降频),从而实现更智能的自动扩缩决策。

实际影响

  • 提升用户体验:通过在延迟峰值影响终端用户之前捕获并缓解这些峰值,依赖大语言模型的产品(聊天机器人、代码助手、搜索增强)能够保持更流畅的交互。
  • 成本节约:更快检测硬件或软件故障可减少浪费的计算周期,并可防止为满足 SLO 而进行资源的过度配置。
  • 运维简化:团队无需再嵌入自定义分析代码或安排停机时间进行仪器升级——LatencyPrism 可即插即用,直接在现有部署上运行。
  • 可移植性:由于与硬件无关,同一监控栈可在将工作负载从云提供商之间迁移或从本地 GPU 迁移到专用加速器时重复使用。
  • 数据驱动的弹性伸缩:细粒度的延迟拆解为自动伸缩策略提供更丰富的信号,从而实现对推理节点更精确的伸缩,并更好地利用抢占式实例。

限制与未来工作

  • 范围仅限推理 – 当前设计侧重于前向传播;训练时的性能分析未覆盖。
  • 依赖遥测质量 – 在低层计数器被禁用或被遮蔽的环境(例如某些托管云服务),阶段分解的准确性可能下降。
  • 模型特定调优 – 虽然异常检测器开箱即用表现良好,但高度不规则的模型(例如具有动态控制流的模型)可能需要自定义特征工程。
  • 未来方向 包括将 LatencyPrism 扩展以支持 训练流水线,集成 基于强化学习的自动调优 用于节流策略,以及添加 跨服务关联 以检测多服务架构中的级联延迟问题。

作者

  • Du Yin
  • Jiayi Ren
  • Xiayu Sun
  • Tianyao Zhou
  • Haizhu Zhou
  • Ruiyan Ma
  • Danyang Zhang

论文信息

  • arXiv ID: 2601.09258v1
  • 分类: cs.DC, cs.LG, cs.OS
  • 发布日期: January 14, 2026
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »