[Paper] 멀티 테넌트 MIG 기반 클라우드를 위한 온라인 단편화 인식 GPU 스케줄러
Source: arXiv
Abstract
AI 애플리케이션의 폭발적인 성장으로 GPU 자원에 대한 전례 없는 수요가 발생하고 있습니다. 클라우드 제공업체는 AI 워크로드를 실행하기 위해 임대 가능한 GPU 자원을 제공하는 GPU-as-a-Service 플랫폼을 통해 이 수요를 충족합니다. 이러한 맥락에서, 다양한 테넌트 간의 GPU 자원 공유는 스케줄링 가능한 워크로드 수를 최대화하기 위해 필수적입니다. 여러 GPU 공유 기술 중에서, NVIDIA의 Multi-Instance GPU (MIG)는 하드웨어 수준에서 GPU를 독립된 슬라이스로 분할하고 각각 전용 컴퓨팅 및 메모리를 할당함으로써 강력한 테넌트 격리, 자원 경쟁 방지, 보안 강화라는 장점을 제공합니다.
이러한 장점에도 불구하고, MIG의 고정 파티셔닝은 스케줄링 경직성을 초래하여, 워크로드가 지속적으로 배포·종료되는 다중 테넌트 환경에서 심각한 GPU 단편화를 야기합니다. 단편화는 GPU 활용도를 낮추어 수용 가능한 워크로드 수를 제한합니다.
이 문제를 해결하기 위해, 우리는 온라인·워크로드-불가지론 설정에서 단편화를 완화하면서 워크로드 수용률을 극대화하는 MIG 기반 클라우드를 위한 새로운 스케줄링 프레임워크를 제안합니다. 우리는 자원 비효율성을 정량화하고 할당 결정을 안내하기 위한 단편화 메트릭을 도입합니다. 이 메트릭을 기반으로 한 우리의 탐욕적 스케줄링 알고리즘은 각 들어오는 워크로드에 대해 단편화 증가를 최소화하는 GPU와 MIG 슬라이스를 선택합니다.
다양한 워크로드 분포 하에서 여러 베이스라인 전략과 비교하여 우리의 접근법을 평가했습니다. 결과는 우리 방법이 일관되게 높은 워크로드 수용률을 달성함을 보여주며, 특히 부하가 높은 상황에서 스케줄된 워크로드 수가 평균 10 % 증가하고, 벤치마크 방법과 거의 동일한 GPU 수를 사용함을 확인했습니다.
Subjects
- Distributed, Parallel, and Cluster Computing (cs.DC)
- Networking and Internet Architecture (cs.NI)
Citation
arXiv: 2511.18906 (cs.DC)
DOI: https://doi.org/10.48550/arXiv.2511.18906
Submission History
- v1: Mon, 24 Nov 2025 09:10:35 UTC (195 KB)