[Paper] Hummingbird:面向SLO的GPU抢占(微秒级)

发布: (2026年1月8日 GMT+8 00:36)
6 min read
原文: arXiv

抱歉,我目前没有看到需要翻译的正文内容。请您提供要翻译的文本(除保留的 Source 链接外),我会按照要求将其翻译成简体中文并保持原有的格式。

概述

本文介绍了 Hummingbird,一种 GPU 调度框架,能够在闭源 GPU 上在几微秒内抢占正在运行的 kernel。通过这种方式,它让高优先级工作负载能够满足其服务水平目标(SLO),同时仍然为低优先级任务挤出空闲的 GPU 周期,显著提升了延迟保证和整体利用率。

关键贡献

  • Microsecond‑scale preemption 在商品化、闭源 GPU 上实现,无需硬件改动。
  • SLO‑oriented scheduler 能根据每个任务的延迟目标动态决定何时抢占。
  • Idle‑time harvesting 机制,可安全地在被抢占的高优先级工作留下的空闲时间插入低优先级内核。
  • Comprehensive evaluation 覆盖多种 GPU 架构,显示相较于以往的空间/时间共享方案,高优先级任务的 SLO 达成提升最高 9.7×,低优先级任务的吞吐量提升 2.4×
  • Minimal impact on exclusive execution:在 Hummingbird 下,高优先级作业与低优先级作业并行运行时,其 SLO 衰减 < 1 %,几乎等同于单独运行。

方法论

  1. Preemption Engine – 作者们逆向工程 GPU 命令提交流水线,以插入一个轻量级的“检查点”,能够在约 10 µs 内中止正在运行的 kernel 并恢复 GPU 状态。
  2. SLO‑aware Scheduler – 为每个进入的 kernel 标注 SLO 截止时间。调度器持续监控进度并预测当前 kernel 是否会错过截止时间;若会,则触发抢占。
  3. Idle‑Slice Collector – 当高优先级 kernel 被抢占时,调度器会寻找短暂的空闲窗口(通常只有几百微秒),并使用简单的装箱启发式算法将低优先级 kernel 填入这些窗口。
  4. Evaluation Suite – 实验在 NVIDIA RTX 3080、RTX 4090 和数据中心级别的 A100 上进行,使用深度学习推理、视频转码和科学仿真 kernel 的混合工作负载。基线包括已知最好的空间共享(MPS)和时间共享(GPU‑time slicing)系统。

结果与发现

指标Hummingbird 与空间共享对比Hummingbird 与时间共享对比
高优先级 SLO 达成9.7× 改进3.5× 改进
低优先级吞吐量2.4× 更高
相对于独占运行的 SLO 降级< 1 %
抢占延迟~12 µs(平均)
  • 延迟保证:高优先级作业始终在截止时间内完成,即使与多个低优先级工作负载共同运行。
  • 利用率提升:系统填补了 > 80 % 本应被浪费的 GPU 空闲时间,使整体利用率从约 55 %(基线)提升至 > 90 %。
  • 可扩展性:性能提升在不同 GPU 代际间均保持,表明该方法并不依赖于特定的硬件版本。

实际影响

  • 云 GPU 服务 可以提供分层定价(高端低延迟 vs. 大批量低成本),同时仍能保证 SLO,而无需专用硬件。
  • 边缘 AI 设备(例如自主无人机)可以在运行安全关键的推理内核的同时执行后台分析,确保实时响应且不牺牲对电池友好的吞吐量。
  • 机器学习的 CI/CD 流水线 可以在同一 GPU 节点上调度模型训练(低优先级)和推理服务(高优先级),降低基础设施成本。
  • 框架集成:抢占原语可以通过 CUDA 驱动扩展或作为中间件层暴露,使现有库(TensorRT、PyTorch)能够以最小的代码改动受益。

局限性与未来工作

  • 闭源依赖:该技术依赖于未文档化的 GPU 驱动行为;未来的驱动更新可能会破坏抢占路径。
  • 极短内核的开销:当内核运行时间小于 50 µs 时,抢占成本可能占主导,限制了对较长工作负载的适用性。
  • 调度器启发式:当前的箱体打包(bin‑packing)方式较为简单;更复杂的预测模型可能进一步降低 SLO 未达率。
  • 多 GPU 协调:本文聚焦于单个 GPU;将 Hummingbird 扩展至在 GPU 集群中协调抢占仍是一个未解决的挑战。

总体而言,Hummingbird 证明了在当今 GPU 上实现细粒度、微秒级抢占是可行的,并且能够为云端和边缘环境解锁新型的延迟感知、高利用率工作负载。

作者

  • Tiancheng Hu
  • Chenxi Wang
  • Ting Cao
  • Jin Qin
  • Lei Chen
  • Xinyu Xiao
  • Junhao Hu
  • Hongliang Tian
  • Shoumeng Yan
  • Huimin Cui
  • Quan Chen
  • Tao Xie

论文信息

  • arXiv ID: 2601.04071v1
  • 类别: cs.DC
  • 出版时间: 2026年1月7日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 软件定义的 Agentic 服务

随着 multi-agent LLM pipelines 的复杂性增加,现有的 serving paradigms 无法适应动态的 serving conditions。我们认为,agentic serving system …