[Paper] Flare: Serverless 탄력성을 활용해 마이크로서비스 부하 급증 흡수
Source: arXiv - 2605.23707v1
개요
이 논문은 전통적인 VM‑기반 컨테이너와 서버리스 함수를 결합한 하이브리드 마이크로서비스 배포 모델인 Flare를 소개합니다. 급격한 트래픽 급증에 대응하기 위해 과부하된 서비스만을 동적으로 서버리스 계층으로 오프로드함으로써, Flare는 많은 클라우드‑네이티브 팀이 현재 의존하고 있는 낭비적인 과다 프로비저닝 없이 응답 시간을 낮게 유지할 것을 약속합니다.
주요 기여
- Hybrid Architecture: VM 기반 마이크로서비스와 서버리스 함수의 원활한 통합을 제안하며, 각 계층이 강점(지속적인 비용 효율성 vs. 빠른 탄력성)을 발휘하도록 함.
- Selective Spike Absorption: 어느 마이크로서비스가 포화 상태인지 식별하는 경량 감지 메커니즘을 도입하고, 초과 요청만 서버리스로 라우팅하여 전체 함수 배포를 피함.
- Minimal Control‑Plane Changes: Flare가 기존 자동 확장 그룹 및 서버리스 플랫폼(AWS Lambda, Azure Functions 등) 위에 레이어링될 수 있음을 보여주며, 서비스 자체의 코드 변경이 필요 없음.
- Cost‑Performance Trade‑off Model: Flare가 과다 프로비저닝 비용을 줄이면서 지연 시간 서비스 수준 목표(SLO)를 충족시키는 방식을 보여주는 분석 모델 및 실증 평가를 제공.
- Prototype & Open‑Source Artifacts: Kubernetes + Knative(또는 유사) 기반의 작동 프로토타입을 제공하고, 재현성을 위한 계측 스크립트를 오픈소스로 공개.
방법론
- Workload Characterization – 저자들은 먼저 다양한 트래픽 패턴 하에서 현실적인 마이크로서비스‑기반 전자상거래 벤치마크(예: SockShop)를 프로파일링하여 일반적인 정상‑상태 부하와 급증 스파이크를 식별한다.
- Hybrid Deployment Setup – 각 마이크로서비스를 VM‑기반 컨테이너(Kubernetes pod on a VM)로 배포하고 동일한 서비스의 병렬 서버리스 버전(Knative service)을 구성한다.
- Spike Detection Logic – 경량 컨트롤러가 서비스별 메트릭(CPU, request queue length, latency)을 모니터링한다. 임계값을 초과하면 컨트롤러가 서비스의 ingress 라우팅 규칙을 재작성하여 새로운 요청을 서버리스 복제본으로 보내고 기존 VM 인스턴스는 계속 드레인된다.
- Evaluation Platform – 실험은 퍼블릭 클라우드(AWS)에서 t3.medium VMs와 Lambda functions의 혼합을 사용하여 수행한다. 세 가지 기준선을 비교한다: (a) 순수 VM auto‑scaling, (b) 정적 over‑provisioning, (c) 순수 serverless.
- Metrics Collected – 엔드‑투‑엔드 요청 지연시간(p95, p99), VM utilization, serverless invocation count, 그리고 24‑시간 워크로드 트레이스에 대한 총 비용을 수집한다.
Source: …
결과 및 발견
| 지표 | Pure VM Auto‑Scale | Over‑Provisioned VMs | Pure Serverless | Flare (Hybrid) |
|---|---|---|---|---|
| 스파이크 시 99번째 백분위수 지연시간 | 1.8 s (SLO 위반) | 300 ms (SLO 충족) | 250 ms (SLO 충족) | 260 ms (SLO 충족) |
| 평균 CPU 사용률 (안정 상태) | 45 % | 20 % (낭비) | N/A | 48 % (효율적) |
| 총 비용 (24 h) | $12.4 | $18.7 | $15.9 | $13.2 |
| 서버리스 호출 (스파이크) | 0 | 0 | 1.2 M | 0.35 M (≈30 % of pure serverless) |
- 지연시간: Flare는 급격한 스파이크 상황에서도 꼬리 지연시간을 일반적인 SLO 임계값(≤300 ms) 이내로 유지하여 순수 서버리스와 동일한 성능을 보여줍니다.
- 비용: 과부하된 서비스에만 서버리스를 호출함으로써 Flare는 전체 서버리스 배포 대비 함수 실행 비용을 약 70 % 절감하고, 정적 과다 프로비저닝으로 발생하는 $5–$6의 낭비를 피합니다.
- 자원 활용도: VM 노드가 높은 활용도를 유지함으로써 하이브리드 모델이 정상 운영 시 유휴 용량을 남기지 않음을 확인했습니다.
실용적 시사점
- DevOps 팀을 위해 – Flare는 기존 Kubernetes 클러스터 위에 드롭‑인 컨트롤러로 도입할 수 있으며, 라우팅 규칙 변경(예: Istio VirtualService 업데이트)만 필요합니다. 코드 리팩터링이나 컨테이너 재빌드가 필요하지 않습니다.
- 비용에 민감한 SaaS – 트래픽 급증(플래시 세일, 바이럴 이벤트)을 겪는 기업은 클라우드 비용을 최대 30 % 절감하면서도 최종 사용자에게 낮은 지연 시간을 보장할 수 있습니다.
- 가시성 통합 – Flare는 표준 메트릭(CPU, 대기열 길이, 지연 시간)에 의존하므로 기존 Prometheus/Grafana 스택에 쉽게 연결되어 도입이 간단합니다.
- 멀티클라우드 이식성 – 설계가 클라우드에 종속되지 않으며, VM 자동 확장과 서버리스 서비스를 모두 제공하는 모든 공급자(AWS, Azure, GCP, Alibaba)에서 동일한 패턴을 구현할 수 있습니다.
- 미래 대비 – 서버리스 플랫폼이 콜드 스타트 시간을 개선하고 지원 언어를 늘릴수록 하이브리드 모델은 더욱 매력적이 되어, 팀이 전체 마이그레이션 없이도 점진적으로 더 많은 서비스를 서버리스 계층으로 전환할 수 있습니다.
제한 사항 및 향후 작업
- 콜드 스타트 오버헤드 – 프로토타입은 여전히 프로비저닝된 동시성이 없는 언어에 대해 서버리스 콜드 스타트 문제를 겪고 있으며, 저자들은 워밍업 풀을 통합할 것을 제안한다.
- 상태ful 서비스 – Flare는 무상태 마이크로서비스를 전제로 하며, 상태ful 워크로드(예: 세션, 캐시)를 처리하려면 추가적인 조정이나 데이터 샤딩 전략이 필요하다.
- 감지의 세분성 – 현재 임계값 기반 탐지기는 일시적인 부하를 스파이크로 오분류할 수 있으며, 향후 작업에서는 머신러닝 기반 예측을 탐구하여 정확성을 향상시킬 수 있다.
- 보안 및 격리 – VM과 서버리스 도메인 간 트래픽 라우팅은 잘못된 구성에 대한 공격 표면을 늘리며, 체계적인 보안 감사는 아직 남은 과제로 남아 있다.
전체적으로, Flare는 조직이 서버리스의 탄력성을 활용하면서 VM 기반 마이크로서비스의 비용 효율성을 유지할 수 있는 실용적인 경로를 제공한다—이는 많은 클라우드 네이티브 팀이 적극적으로 추구하는 균형이다.
저자
- Dilina Dehigama
- Shyam Jesalpura
- David Schall
- Antonios Katsarakis
- Marios Kogias
- Rakesh Kumar
- Boris Grot
논문 정보
- arXiv ID: 2605.23707v1
- 분류: cs.DC
- 발행일: 2026년 5월 22일
- PDF: PDF 다운로드