[Paper] 基于MIG的多租户云的在线碎片感知GPU调度器

发布: (2025年11月24日 GMT+8 17:10)
3 min read
原文: arXiv

Source: arXiv

摘要

AI 应用的爆炸式增长对 GPU 资源产生了前所未有的需求。云服务提供商通过 GPU 即服务(GPU-as-a-Service)平台提供可租用的 GPU 资源,以运行 AI 工作负载。在这种背景下,不同租户之间共享 GPU 资源对于最大化调度工作负载的数量至关重要。在众多 GPU 共享技术中,NVIDIA 的多实例 GPU(MIG)通过在硬件层面将 GPU 划分为具有专用计算和内存的隔离切片,提供了强大的租户隔离、避免资源争用并提升安全性,因而脱颖而出。

尽管具有这些优势,MIG 的固定划分导致调度刚性,在多租户环境中会产生严重的 GPU 碎片化——工作负载不断部署和终止。碎片化使 GPU 利用率下降,限制了能够容纳的工作负载数量。

为了解决此问题,我们提出了一种针对基于 MIG 的云平台的全新调度框架,在在线、与工作负载无关的设置下最大化工作负载接受率并缓解碎片化。我们引入了一种碎片化度量,用于量化资源低效并指导分配决策。基于该度量,我们的贪婪调度算法为每个新到达的工作负载选择能够最小化碎片化增长的 GPU 与 MIG 切片。

我们在多种工作负载分布下将该方法与多种基线策略进行比较评估。结果表明,在高负载条件下,我们的方法始终实现更高的工作负载接受率,使调度的工作负载数量平均提升 10 %,而使用的 GPU 数量与基准方法大致相同。

主题

  • 分布式、并行与集群计算 (cs.DC)
  • 网络与互联网架构 (cs.NI)

引用

arXiv: 2511.18906 (cs.DC)
DOI: https://doi.org/10.48550/arXiv.2511.18906

提交历史

  • v1: Mon, 24 Nov 2025 09:10:35 UTC (195 KB)
Back to Blog

相关文章

阅读更多 »

Friday Five — 2025年12月5日

https://www.redhat.com/rhdc/managed-files/styles/default_800/private/number-1.png.webp?itok=pDWx13kK Red Hat 将在 AWS 上提供增强的 AI 推理

Terraform 项目:简单 EC2 + 安全组

项目结构 terraform-project/ │── main.tf │── variables.tf │── outputs.tf │── providers.tf │── terraform.tfvars │── modules/ │ └── ec2/ │ ├── main.tf │ …