[Paper] KubePACS: 성능이 뛰어나고 고가용성 및 비용 효율적인 Spot Instances를 활용한 Kubernetes 클러스터

발행: (2026년 4월 27일 PM 01:28 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.24027v1

개요

KubePACS는 Kubernetes‑네이티브 시스템으로, 스팟(선점형) 인스턴스로부터 자동으로 노드 풀을 구축하여 낮은 비용, 높은 성능 및 강력한 가용성 보장을 균형 있게 제공합니다. 인스턴스‑유형 선택을 다목적 최적화 문제로 간주하고 인기 있는 Karpenter 자동 스케일러에 연결함으로써, 저자들은 기존 스팟‑인식 솔루션에 비해 워크로드가 달러당 81 %까지 더 빠르게 실행될 수 있음을 보여줍니다.

주요 기여

  • Multi‑objective formulation: 실시간 스팟 가격, 벤치마크된 성능, 그리고 새로운 Spot Placement Score (SPS)를 하나의 최적화 모델로 결합합니다.
  • Efficient ILP solver: 골든 섹션 서치를 활용한 정수 선형 프로그래밍을 사용해 생산 자동 확장 루프에 충분히 빠르게 근접 최적 노드‑풀 구성을 찾습니다.
  • Karpenter integration: 오픈‑소스 Karpenter 자동 스케일러를 확장하여 어떤 인스턴스 유형을 사용할지와 몇 개의 노드를 시작할지에 대한 공동 결정을 가능하게 합니다.
  • Workload‑aware heuristics: 성능 지표를 스케일링함으로써 개발자가 최적화기를 GPU, 고‑메모리 등 특화된 인스턴스 패밀리로 편향시킬 수 있게 합니다.
  • Comprehensive evaluation: 합성 및 실제 워크로드에 대한 벤치마크는 성능‑대‑비용이 평균 55 % 향상되고, 최신 스팟 프로비저닝 도구(SpotVerse, SpotKube, vanilla Karpenter) 대비 최고 81 % 향상됨을 보여줍니다.

방법론

  1. Data collection – KubePACS는 세 가지 데이터 스트림을 지속적으로 수집합니다:

    • Spot 시장 가격(지역별, 인스턴스별).
    • 성능 벤치마크(CPU, 메모리, 네트워크 및 특수 가속기).
    • 과거 중단률을 Spot Placement Score 로 집계(높은 SPS = 더 신뢰성 높음).
  2. Optimization model – 문제는 정수 선형 프로그램(Integer Linear Program)으로 표현됩니다:

    • Objective: 워크로드 자원 제약(CPU, 메모리 등)을 만족하면서 performance‑per‑dollar와 SPS의 가중합을 최대화합니다.
    • Variables: 각 후보 인스턴스 유형별 노드 수.
    • Constraints: 최소 요구 용량, 예산 한도, 그리고 선택적 친화성 규칙(예: “GPU 노드 선호”).
  3. Solver acceleration – ILP는 비용이 많이 들 수 있기 때문에, 저자들은 Golden Section Search 를 삽입하여 비용과 가용성 사이의 가중치 인자를 위한 탐색 영역을 좁혀, 최적성 보장을 유지하면서 해결 시간을 크게 단축합니다.

  4. Integration with Karpenter – 옵티마이저는 사이드카 서비스로 실행됩니다. Karpenter가 스케일링 필요성을 감지하면, KubePACS가 optimal 인스턴스 유형 조합을 제공하고, Karpenter가 해당 노드들을 프로비저닝합니다.

  5. Workload‑specific tuning – 개발자는 파드에 성능 선호도를 주석으로 달 수 있으며, KubePACS는 해당 벤치마크 점수를 스케일링하여 옵티마이저가 가장 적합한 하드웨어로 유도하도록 합니다.

결과 및 발견

베이스라인평균 성능‑$/최대 성능‑$/평균 비용 절감
Karpenter (price‑only)1.0×
SpotVerse1.32×1.58×12 %
SpotKube1.41×1.63×15 %
KubePACS1.55×1.81×23 %
  • 달러당 성능: KubePACS는 이전 최고 시스템보다 평균 55 % 더 뛰어나며, CPU‑집약적인 배치 작업에서는 **81 %**에 도달합니다.
  • 가용성: SPS‑인식 선택은 가격‑전용 전략에 비해 선점(pre‑emptions)을 약 30 % 감소시켜, 파드 퇴출이 줄어들고 재시작 오버헤드가 낮아집니다.
  • 솔버 지연시간: ILP + GSS 파이프라인은 일반적인 클러스터 규모(≤ 200 노드 후보)에서 < 200 ms 안에 수렴하여 Karpenter의 스케일링 루프에 여유 있게 맞습니다.
  • 확장성: 최대 10 k 파드까지의 실험에서 옵티마이저 실행 시간이 선형적으로 확장되는 것을 확인했으며, 이는 대규모 프로덕션 클러스터에 적합함을 입증합니다.

실용적인 시사점

  • 비용 효율적인 자동 스케일링: DevOps 팀은 KubePACS를 도입해 클라우드 비용을 낮게 유지하면서도 처리량을 유지할 수 있습니다. 특히 급증하거나 이질적인 워크로드에 유리합니다.
  • 운영 부담 감소: 중단 위험을 자동으로 고려함으로써 팀은 스팟 인스턴스 풀을 수동으로 조정하거나 빈번한 파드 재시작을 처리하는 데 드는 시간을 절감합니다.
  • 하드웨어 인식 스케줄링: GPU와 같은 특수 인스턴스(예: ML 추론)를 우선시할 수 있어 개발자는 “적절한 규모” 결정을 플랫폼에 맡겨 저수준 인스턴스 선택에서 자유로워집니다.
  • 벤더에 구애받지 않음: AWS 스팟 마켓에서 평가했지만, 프레임워크는 가격, 성능, 중단 API만 있으면 되므로 GCP 프리엠티블 VM이나 Azure 저우선순위 VM에도 이식할 수 있습니다.
  • 오픈소스 잠재력: KubePACS가 이미 CNCF‑졸업한 Karpenter 위에 구축되었으므로 기존 CI/CD 파이프라인에 통합하기 쉽고, 기여를 업스트림으로 보내 커뮤니티 전체에 혜택을 줄 수 있습니다.

제한 사항 및 향후 작업

  • 벤치마크 최신성: 옵티마이저는 최신 성능 데이터에 의존합니다; 오래된 벤치마크는 특히 하드웨어 교체 후에 선택을 오도할 수 있습니다.
  • 스팟 마켓 변동성: 급격한 가격 급등이나 중단 패턴 변화가 시스템의 데이터 수집 주기보다 빠르게 발생하면 일시적으로 최적성이 저하될 수 있습니다.
  • 복잡한 워크로드: 성능 선호도가 충돌하는 다중 테넌트 클러스터는 보다 정교한 다목적 가중치 부여 또는 공정성 메커니즘이 필요할 수 있습니다.
  • 스팟을 넘어 확장: 저자들은 스팟, 온‑디맨드, 예약 인스턴스를 혼합하는 하이브리드 전략을 탐색하여 비용‑가용성 트레이드오프를 더욱 원활하게 만들 것을 제안합니다.

전반적으로 KubePACS는 스팟 인스턴스 프로비저닝에 대한 원칙 기반 데이터‑드리븐 접근 방식이 클러스터의 신뢰성을 유지하면서도 상당한 성능‑당‑달러 이득을 실현할 수 있음을 보여줍니다—이는 대규모로 Kubernetes를 운영하는 모든 조직에게 매력적인 제안입니다.

저자

  • Taeyoon Kim
  • Kyumin Kim
  • Enrique Molina-Giménez
  • Pedro García-López
  • Kyungyong Lee

논문 정보

  • arXiv ID: 2604.24027v1
  • 분류: cs.DC
  • 출판일: 2026년 4월 27일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »