[Paper] 异构 GPU 集群上 DL 工作负载的混合学习与基于优化的动态调度
发布: (2025年12月11日 GMT+8 12:19)
8 min read
原文: arXiv
Source: arXiv - 2512.10271v1
概览
深度学习(DL)训练任务如今主导了云 GPU 工作负载,但异构 GPU 集群(不同型号、内存大小和互连方式)的快速增长,使得传统调度器难以保持 GPU 高利用率并缩短作业时间。本文提出 RLTune,一种基于强化学习(RL)的调度器,无需对每个作业进行剖析,结合 RL‑驱动的作业优先级排序与混合整数线性规划(MILP)优化器,实时将作业映射到最合适的节点。
关键贡献
- 与应用无关的 RL 优先级器 – 仅使用可观测指标(如请求资源、历史排队时间)学习对新进 DL 作业进行排序,消除离线剖析的需求。
- 混合 RL + MILP 框架 – 将快速学习得到的优先级分数与精确的 MILP 求解器相结合,在多目标(完成时间、排队延迟、利用率)约束下生成最优的作业‑GPU‑节点分配。
- 大规模生产评估 – 在 Microsoft Philly、Helios 和阿里巴巴的追踪数据上进行训练和验证,展示了真实场景的适用性。
- 显著的性能提升 – 与最先进的调度器相比,实现了 GPU 利用率提升 20 %、排队延迟降低 81 %、作业完成时间缩短 70 %。
- 通用设计 – 能够适用于多种 DL 工作负载(CNN、Transformer、RL 代理),无需手工启发式或模型特定调优。
方法论
- 数据收集 – 作者从三个生产集群中收集了数百万作业提交记录,提取轻量特征,如请求的 GPU 数量、内存、估计运行时间以及当前集群状态。
- RL 优先级排序 – 一个策略网络(小型前馈神经网络)接收特征向量并输出优先级分数。策略的奖励函数平衡三项目标:(a) 最小化作业完成时间,(b) 减少排队长度,(c) 最大化整体 GPU 利用率。采用近端策略优化(PPO)实现稳定学习。
- MILP 映射 – 在 RL 模块得到的作业排序基础上,MILP 公式决定每个作业应运行在哪个 GPU 节点。约束捕捉异构性(不同 GPU 内存、计算能力、PCIe/NVLink 带宽)以及系统限制(每节点最大作业数、公平性上限)。目标函数与 RL 奖励相同,但对当前批次求解到全局最优。
- 在线循环 – 调度器以滑动窗口方式运行:每隔几秒重新评估待处理作业,更新优先级,求解 MILP 并下发作业。此机制使系统能够快速响应工作负载突发和节点故障。
- 训练与部署 – RL 策略先在离线历史追踪上预训练,然后在在线环境中以小学习率微调,以适应不断变化的工作负载。
结果与发现
| 指标 | 基线(Kubernetes‑GPU) | 现有方法(Tiresias) | RLTune |
|---|---|---|---|
| GPU 利用率 | 62 % | 68 % | 78 % |
| 平均排队延迟 | 12 min | 6 min | 2.3 min |
| 平均作业完成时间 | 4.5 h | 3.2 h | 1.35 h |
| 公平性(JCT 方差) | 1.8× | 1.4× | 1.1× |
- 利用率提升 主要来源于 MILP 对小作业的填充能力以及在同一节点上兼容作业的共址。
- 排队时间缩短 归功于 RL 优先级器,它在系统拥堵时学会提升短作业或对时延敏感的作业。
- JCT 改善 是更好填充与更聪明排序的复合作用,尤其对本来会独占高端 GPU 的长时间训练任务影响显著。
- 系统在工作负载激增时仍保持稳定,RL 组件能够快速重新排序作业,MILP 在子秒级内重新优化(对最多 256 GPU 的集群,平均求解时间 < 200 ms)。
实际意义
- 云服务提供商 可将 RLTune 集成到现有编排层(如 Kubernetes‑GPU、Slurm),在相同硬件上完成更多工作,降低资本支出并提升客户 SLA。
- 机器学习工程师 将受益于训练作业的等待时间下降,加速迭代周期并支持更激进的超参数搜索。
- 能源与可持续性 – 更高的利用率直接转化为每作业更低的能耗,契合绿色计算倡议。
- 多租户公平性 – 由于 RL 奖励平衡了公平性,较小团队或突发工作负载不易被饿死,这对共享资源平台至关重要。
- 可扩展性 – 混合 RL + MILP 模式可复用于其他异构资源(TPU、FPGA)或具有时延约束的推理工作负载调度。
局限性与未来工作
- MILP 的可扩展性 – 当前实现能快速求解约 256 GPU 的集群,规模更大的集群可能需要分解或启发式近似。
- 特征集的简洁性 – RL 策略仅使用粗粒度作业描述;加入更丰富的信号(如模型结构、数据 I/O 模式)可能进一步提升预测精度,但会增加开销。
- 冷启动行为 – 系统依赖预训练策略;在全新集群且缺乏历史追踪时,性能可能在收集足够数据前表现不佳。
- 对故障的鲁棒性 – 论文假设节点故障较少;将容错机制(如作业运行中动态重新映射)纳入系统是未来的工作方向。
- 跨 DL 之外的泛化 – 将 RLTune 扩展到非 DL GPU 工作负载(如图形渲染、科学模拟)可检验其真正的应用无关性声明。
总体而言,RLTune 展示了学习驱动的优先级排序与经典优化相结合,能够应对日益复杂的异构 GPU 调度问题,为云运营商提供了一条实现更快、更公平、更高效深度学习服务的实用路径。
作者
- Shruti Dongare
- Redwan Ibne Seraj Khan
- Hadeel Albahar
- Nannan Zhao
- Diego Melendez Maita
- Ali R. Butt
论文信息
- arXiv ID: 2512.10271v1
- 分类: cs.DC, cs.AI, cs.LG
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF