[Paper] 멀티-NUMA 가상 머신을 위한 사용 가능한 공간의 효율적인 계산

발행: 1일 전 (2026년 4월 16일 PM 11:04 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.15033v1

개요

이 논문은 현대 클라우드 인프라스트럭처에서 숨겨진 병목 현상을 다룹니다: 일부 자원이 이미 사용 중일 때 물리 서버에 아직 얼마나 많은 멀티‑NUMA 가상 머신(VM)을 배치할 수 있는지를 파악하는 문제입니다. 현실적인 NUMA‑인식 제약 하에서 배치 가능한 VM의 최대 수에 대한 폐쇄형 수식을 도출함으로써, 저자들은 운영자에게 “이 크기의 VM을 추가로 몇 대 더 실행할 수 있을까?”라는 질문에 빠르고 결정론적인 답을 제공합니다—이 질문은 일반적으로 비용이 많이 드는 조합 탐색을 필요로 합니다.

주요 기여

Closed‑form capacity formulas for 2‑ and 4‑NUMA symmetric VMs mapped onto 4‑ and 8‑NUMA physical servers. → 폐쇄형 용량 공식 2‑ 및 4‑NUMA 대칭 VM을 4‑ 및 8‑NUMA 물리 서버에 매핑한 경우.
Proof of optimality showing that the derived expressions achieve the theoretical upper bound on VM count under the given constraints. → 최적성 증명 파생된 식이 주어진 제약 조건 하에서 VM 수에 대한 이론적 상한에 도달함을 보여줌.
Algorithm‑agnostic model that can be plugged into any scheduler (Kubernetes, OpenStack, proprietary cloud stacks) without altering the underlying placement logic. → 알고리즘에 구애받지 않는 모델로, 기본 배치 로직을 변경하지 않고도 모든 스케줄러(Kubernetes, OpenStack, 독점 클라우드 스택)에 적용 가능.
Use‑case scenarios ranging from real‑time capacity dashboards to large‑scale re‑optimization tools for cloud operators. → 사용 사례 시나리오는 실시간 용량 대시보드부터 클라우드 운영자를 위한 대규모 재최적화 도구까지 다양함.
Performance evaluation demonstrating orders‑of‑magnitude speedup compared to exhaustive search or ILP solvers. → 성능 평가는 전수 탐색이나 ILP 솔버에 비해 수십 배 이상의 속도 향상을 보여줌.

Source: …

Methodology

문제 형식화 – 저자들은 다중‑NUMA VM의 배치를 가상 NUMA 그래프(예: 각각 p 코어를 가진 2개의 노드)를 물리 NUMA 그래프(예: 각각 q 코어를 가진 4개의 노드)로 매핑하는 문제로 모델링합니다. 매핑은 다음 세 가지 제약을 만족해야 합니다:
- 노드당 코어 수 (과다 할당 금지).
- 메모리 대역폭 지역성 (각 가상 노드는 단일 물리 노드에 바인딩되어야 함).
- 격리 (공동 배치된 VM은 구성 가능한 임계값을 초과하여 동일 물리 노드를 공유할 수 없음).
조합론적 분석 – 각 물리 NUMA 노드를 고정 용량을 가진 “빈”으로 취급함으로써 배치 문제는 다차원 빈‑채우기 문제로 귀결됩니다. 저자들은 대칭성(동일한 가상 노드)을 활용하여 탐색 공간을 크게 축소합니다.
폐쇄형 식 도출 – 정수 연산과 floor/ceil 연산을 이용해 다음과 같은 식을 도출합니다. 이 식은 다음을 고려하여 추가할 수 있는 최대 VM 수(maxVMs)를 직접 계산합니다:
- 물리 노드별 남은 코어 수 (C_i).
- 물리 노드별 남은 메모리 (M_i).
- VM 플레버 요구 사항 (c_v, m_v, k 여기서 k는 가상 NUMA 노드 수).
예를 들어, 4‑NUMA 호스트에서 2‑NUMA VM을 배치할 경우:

$$ \text{maxVMs} = \min_{i=1..4}\left\lfloor\frac{C_i}{c_v}\right\rfloor,; \min_{i=1..4}\left\lfloor\frac{M_i}{m_v}\right\rfloor,; \left\lfloor\frac{\sum_{i=1}^{4} C_i}{2c_v}\right\rfloor $$

논문은 4‑NUMA → 8‑NUMA 경우에 대한 유사한 식도 제시합니다.
검증 – 이 식들은 세 가지 기준과 비교됩니다: (a) 전수 탐색, (b) 혼합 정수 선형 프로그래밍(MILP), (c) 휴리스틱 탐욕형 패커. 정확도는 100 %이며(항상 최적 개수를 반환), 실행 시간은 초/분 수준에서 마이크로초 수준으로 감소합니다.

결과 및 발견

시나리오	물리 토폴로지	VM 플레버	최적 VM 수 (전수 탐색)	공식 결과	속도 향상
2‑NUMA → 4‑NUMA	4×64‑코어, 256 GB	2‑NUMA, 16 코어, 32 GB	12	12	~10⁴×
4‑NUMA → 8‑NUMA	8×48‑코어, 192 GB	4‑NUMA, 12 코어, 24 GB	18	18	~8·10³×
혼합 부하 (부분 점유)	4×64‑코어, 256 GB	2‑NUMA, 20 코어, 40 GB	9	9	~1.2·10⁴×

핵심 요점

도출된 공식은 항상 최적 한계에 도달하므로 할당 효율이 손실되지 않는다.
수백 대의 호스트로 구성된 전체 클러스터의 계산 용량을 1초 이하에 구할 수 있어 실시간 대시보드가 가능하다.
일부 NUMA 노드가 이미 부분적으로 할당된 경우에도, 노드별 floor 연산 덕분에 접근 방식이 정상적으로 작동한다.

Practical Implications

Live capacity dashboards – 클라우드 운영자는 실시간으로 “이 호스트에서 아직 실행할 수 있는 X‑type VM이 몇 대인지?”를 표시하여 셀프‑서비스 포털을 개선할 수 있습니다.
Scheduler plug‑ins – 기존 스케줄러(예: OpenStack Nova, Kubernetes 디바이스 플러그인)는 무거운 배치 로직을 호출하기 전에 이 공식을 빠른 “가능성 검사”로 사용할 수 있습니다.
Capacity planning & rebalancing – 최적 VM 배치를 주기적으로 재계산하는 도구(예: 에너지 인식 통합)를 사용하면 이제 수백만 개의 “what‑if” 시나리오를 즉시 평가할 수 있습니다.
Developer tooling – 다중 NUMA 테스트 VM을 생성하는 CI 파이프라인은 공유 테스트 클러스터에서 자원을 과다 할당하지 않도록 이 공식을 조회할 수 있습니다.
Edge/real‑time workloads – 저지연 NUMA 로컬리티에 의존하는 애플리케이션(예: 고빈도 트레이딩, AI 추론)은 하드웨어 토폴로지를 보장한다는 확신을 가지고 프로비저닝할 수 있습니다.

제한 사항 및 향후 작업

대칭 VM 유형만 – 현재 도출은 모든 가상 NUMA 노드가 동일하다고 가정합니다. 비대칭 VM(노드당 코어 수가 다른 경우)은 다루지 않습니다.
정적 자원 모델 – 공식은 남은 코어/메모리 스냅샷에 대해 작동하며, CPU 스로틀링이나 메모리 벌룬링과 같은 동적 변화를 고려하지 않습니다.
VM 간 간섭 – 모델은 하드 격리 임계값을 적용하지만, 공유 캐시, 네트워크 대역폭 등 미묘한 성능 간섭을 포착하지 못합니다.
이기종 NUMA에 대한 확장성 – 향후 작업에서는 코어 수나 메모리 용량이 다른 NUMA 노드를 가진 서버(예: CPU+GPU NUMA 도메인)로 이론을 확장할 수 있습니다.

이러한 격차를 해소하면 접근 방식을 모든 NUMA 인식 클라우드 환경에 적용 가능한 범용 “용량 오라클”로 전환할 수 있습니다.

저자

Andrei Gudkov
Elizaveta Ponomareva
Alexis Pospelov

논문 정보

arXiv ID: 2604.15033v1
분류: cs.DC, cs.DS
출판일: 2026년 4월 16일
PDF: PDF 다운로드

[Paper] 멀티-NUMA 가상 머신을 위한 사용 가능한 공간의 효율적인 계산

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 하이브리드 HPC‑양자 시스템에서 회로 절단을 위한 Wave-Based Dispatch

[논문] SCENIC: 스트림 컴퓨테이션 강화 SmartNIC

[Paper] Prefill-as-a-Service: 차세대 모델의 KVCache가 크로스-데이터센터로 이동 가능

[Paper] 대용량 메모리 풋프린트를 가진 체인 구조 작업 서비스와 Large Foundation Model Serving에의 적용