[Paper] 异构 GPU 集群上 DL 工作负载的混合学习与基于优化的动态调度

发布: 1个月前 (2025年12月11日 GMT+8 12:19)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.10271v1

概览

深度学习（DL）训练任务如今主导了云 GPU 工作负载，但异构 GPU 集群（不同型号、内存大小和互连方式）的快速增长，使得传统调度器难以保持 GPU 高利用率并缩短作业时间。本文提出 RLTune，一种基于强化学习（RL）的调度器，无需对每个作业进行剖析，结合 RL‑驱动的作业优先级排序与混合整数线性规划（MILP）优化器，实时将作业映射到最合适的节点。

关键贡献

与应用无关的 RL 优先级器 – 仅使用可观测指标（如请求资源、历史排队时间）学习对新进 DL 作业进行排序，消除离线剖析的需求。
混合 RL + MILP 框架 – 将快速学习得到的优先级分数与精确的 MILP 求解器相结合，在多目标（完成时间、排队延迟、利用率）约束下生成最优的作业‑GPU‑节点分配。
大规模生产评估 – 在 Microsoft Philly、Helios 和阿里巴巴的追踪数据上进行训练和验证，展示了真实场景的适用性。
显著的性能提升 – 与最先进的调度器相比，实现了 GPU 利用率提升 20 %、排队延迟降低 81 %、作业完成时间缩短 70 %。
通用设计 – 能够适用于多种 DL 工作负载（CNN、Transformer、RL 代理），无需手工启发式或模型特定调优。

方法论

数据收集 – 作者从三个生产集群中收集了数百万作业提交记录，提取轻量特征，如请求的 GPU 数量、内存、估计运行时间以及当前集群状态。
RL 优先级排序 – 一个策略网络（小型前馈神经网络）接收特征向量并输出优先级分数。策略的奖励函数平衡三项目标：(a) 最小化作业完成时间，(b) 减少排队长度，(c) 最大化整体 GPU 利用率。采用近端策略优化（PPO）实现稳定学习。
MILP 映射 – 在 RL 模块得到的作业排序基础上，MILP 公式决定每个作业应运行在哪个 GPU 节点。约束捕捉异构性（不同 GPU 内存、计算能力、PCIe/NVLink 带宽）以及系统限制（每节点最大作业数、公平性上限）。目标函数与 RL 奖励相同，但对当前批次求解到全局最优。
在线循环 – 调度器以滑动窗口方式运行：每隔几秒重新评估待处理作业，更新优先级，求解 MILP 并下发作业。此机制使系统能够快速响应工作负载突发和节点故障。
训练与部署 – RL 策略先在离线历史追踪上预训练，然后在在线环境中以小学习率微调，以适应不断变化的工作负载。

结果与发现

指标	基线（Kubernetes‑GPU）	现有方法（Tiresias）	RLTune
GPU 利用率	62 %	68 %	78 %
平均排队延迟	12 min	6 min	2.3 min
平均作业完成时间	4.5 h	3.2 h	1.35 h
公平性（JCT 方差）	1.8×	1.4×	1.1×

利用率提升 主要来源于 MILP 对小作业的填充能力以及在同一节点上兼容作业的共址。
排队时间缩短 归功于 RL 优先级器，它在系统拥堵时学会提升短作业或对时延敏感的作业。
JCT 改善 是更好填充与更聪明排序的复合作用，尤其对本来会独占高端 GPU 的长时间训练任务影响显著。
系统在工作负载激增时仍保持稳定，RL 组件能够快速重新排序作业，MILP 在子秒级内重新优化（对最多 256 GPU 的集群，平均求解时间 < 200 ms）。

实际意义

云服务提供商 可将 RLTune 集成到现有编排层（如 Kubernetes‑GPU、Slurm），在相同硬件上完成更多工作，降低资本支出并提升客户 SLA。
机器学习工程师 将受益于训练作业的等待时间下降，加速迭代周期并支持更激进的超参数搜索。
能源与可持续性 – 更高的利用率直接转化为每作业更低的能耗，契合绿色计算倡议。
多租户公平性 – 由于 RL 奖励平衡了公平性，较小团队或突发工作负载不易被饿死，这对共享资源平台至关重要。
可扩展性 – 混合 RL + MILP 模式可复用于其他异构资源（TPU、FPGA）或具有时延约束的推理工作负载调度。

局限性与未来工作

MILP 的可扩展性 – 当前实现能快速求解约 256 GPU 的集群，规模更大的集群可能需要分解或启发式近似。
特征集的简洁性 – RL 策略仅使用粗粒度作业描述；加入更丰富的信号（如模型结构、数据 I/O 模式）可能进一步提升预测精度，但会增加开销。
冷启动行为 – 系统依赖预训练策略；在全新集群且缺乏历史追踪时，性能可能在收集足够数据前表现不佳。
对故障的鲁棒性 – 论文假设节点故障较少；将容错机制（如作业运行中动态重新映射）纳入系统是未来的工作方向。
跨 DL 之外的泛化 – 将 RLTune 扩展到非 DL GPU 工作负载（如图形渲染、科学模拟）可检验其真正的应用无关性声明。

总体而言，RLTune 展示了学习驱动的优先级排序与经典优化相结合，能够应对日益复杂的异构 GPU 调度问题，为云运营商提供了一条实现更快、更公平、更高效深度学习服务的实用路径。

作者

Shruti Dongare
Redwan Ibne Seraj Khan
Hadeel Albahar
Nannan Zhao
Diego Melendez Maita
Ali R. Butt

论文信息

arXiv ID: 2512.10271v1
分类: cs.DC, cs.AI, cs.LG
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

[Paper] 异构 GPU 集群上 DL 工作负载的混合学习与基于优化的动态调度

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型