[Paper] Hummingbird：面向SLO的GPU抢占（微秒级）

发布: 1个月前 (2026年1月8日 GMT+8 00:36)

6 分钟阅读

原文: arXiv

抱歉，我目前没有看到需要翻译的正文内容。请您提供要翻译的文本（除保留的 Source 链接外），我会按照要求将其翻译成简体中文并保持原有的格式。

概述

本文介绍了 Hummingbird，一种 GPU 调度框架，能够在闭源 GPU 上在几微秒内抢占正在运行的 kernel。通过这种方式，它让高优先级工作负载能够满足其服务水平目标（SLO），同时仍然为低优先级任务挤出空闲的 GPU 周期，显著提升了延迟保证和整体利用率。

Microsecond‑scale preemption 在商品化、闭源 GPU 上实现，无需硬件改动。
SLO‑oriented scheduler 能根据每个任务的延迟目标动态决定何时抢占。
Idle‑time harvesting 机制，可安全地在被抢占的高优先级工作留下的空闲时间插入低优先级内核。
Comprehensive evaluation 覆盖多种 GPU 架构，显示相较于以往的空间/时间共享方案，高优先级任务的 SLO 达成提升最高 9.7×，低优先级任务的吞吐量提升 2.4×。
Minimal impact on exclusive execution：在 Hummingbird 下，高优先级作业与低优先级作业并行运行时，其 SLO 衰减 < 1 %，几乎等同于单独运行。

Preemption Engine – 作者们逆向工程 GPU 命令提交流水线，以插入一个轻量级的“检查点”，能够在约 10 µs 内中止正在运行的 kernel 并恢复 GPU 状态。
SLO‑aware Scheduler – 为每个进入的 kernel 标注 SLO 截止时间。调度器持续监控进度并预测当前 kernel 是否会错过截止时间；若会，则触发抢占。
Idle‑Slice Collector – 当高优先级 kernel 被抢占时，调度器会寻找短暂的空闲窗口（通常只有几百微秒），并使用简单的装箱启发式算法将低优先级 kernel 填入这些窗口。
Evaluation Suite – 实验在 NVIDIA RTX 3080、RTX 4090 和数据中心级别的 A100 上进行，使用深度学习推理、视频转码和科学仿真 kernel 的混合工作负载。基线包括已知最好的空间共享（MPS）和时间共享（GPU‑time slicing）系统。

总体而言，Hummingbird 证明了在当今 GPU 上实现细粒度、微秒级抢占是可行的，并且能够为云端和边缘环境解锁新型的延迟感知、高利用率工作负载。