[Paper] PolarStore: 대규모 클라우드‑네이티브 데이터베이스를 위한 고성능 데이터 압축
Source: arXiv - 2511.19949v1
Overview
이 논문은 PolarStore라는 클라우드‑네이티브 스토리지 레이어를 소개한다. 이 레이어는 성능을 희생하지 않으면서 데이터베이스 스토리지 비용을 크게 절감한다. 목적에 맞게 설계된 하드웨어 압축기(PolarCSD)와 경량 소프트웨어 계층을 결합함으로써, 대규모 워크로드에 대해 높은 압축 비율을 제공하면서도 I/O 경로를 생산 등급 관계형 데이터베이스에 충분히 빠르게 유지한다.
Key Contributions
- 이중‑계층 압축 아키텍처 – 스토리지 내부 하드웨어 압축과 얇은 소프트웨어 압축기를 결합해 양쪽 장점을 모두 활용한다.
- 데이터베이스‑인식 I/O 최적화 – 압축에 일반적으로 수반되는 지연을 피하도록 중요한 읽기/쓰기 경로를 재설계한다.
- 안정성을 위한 하드웨어 개선 – 수천 대 서버에 걸친 배포에서 검증된 PolarCSD 칩에 호스트‑레벨 보호 장치를 추가한다.
- 압축‑인식 클러스터 스케줄링 – 데이터 블록을 압축 가능도에 따라 배치하는 스케줄러로 전체 공간 효율성을 높인다.
- 실제 환경 검증 – PolarDB 생산 플릿(≈ 100 PB 데이터)에서 3.55배 압축 비율과 약 60 % 비용 절감을 달성했으며, 성능은 압축되지 않은 클러스터와 동등했다.
Methodology
-
두 단계 압축 파이프라인
- 1단계 (하드웨어): 데이터가 스토리지 노드에 내장된 PolarCSD ASIC으로 스트리밍된다. 이 칩은 관계형 데이터 패턴에 맞춘 맞춤형 사전을 사용해 빠른 무손실 압축을 수행한다.
- 2단계 (소프트웨어): 네트워크 스택에 도달하기 직전에 경량 CPU 기반 압축기가 실행되어, 하드웨어가 효율적으로 처리하지 못하는 작은 행이나 스키마‑특정 인코딩과 같은 예외 상황을 처리한다.
-
I/O 경로 재설계
- 읽기는 요청된 블록이 이미 “핫” 압축 형태에 있으면 소프트웨어 단계를 건너뛰어 스토리지 노드에서 직접 복원한다.
- 쓰기는 작은 행들을 배치로 모아 하드웨어 압축기의 활용도를 높이고, 행당 오버헤드를 감소시킨다.
-
안정성 향상
- PolarCSD 내부에 감시 로직과 오류 정정 버퍼를 추가해 드물게 발생하는 하드웨어 결함으로 인한 호스트 충돌을 방지한다.
-
압축‑인식 스케줄러
- 스케줄러는 테이블별 압축 가능도 메트릭을 모니터링하고, 압축률이 높은 테이블들을 동일 물리 디스크에 함께 배치해 각 노드의 실제 저장 밀도를 극대화한다.
-
평가
- 벤치마크는 생산 규모의 PolarDB 클러스터(수천 대 노드, 총 100 PB)에서 수행되었다.
- 워크로드에는 OLTP (TPC‑C), OLAP (TPC‑DS), 그리고 SaaS 애플리케이션에 일반적인 혼합‑모드 쿼리가 포함되었다.
Results & Findings
| Metric | Uncompressed Baseline | PolarStore | Δ |
|---|---|---|---|
| Compression Ratio | 1.0× | 3.55× | +255 % |
| Storage Cost | 100 % | ≈ 40 % | –60 % |
| Average Read Latency | 1.2 ms | 1.3 ms | ≈ +8 % |
| Average Write Latency | 1.5 ms | 1.6 ms | ≈ +7 % |
| Throughput (queries/s) | 12,000 | 11,800 | ≈ –1.7 % |
- 공간 효율성: 이중‑계층 접근 방식은 원시 저장 용량을 3.55배 감소시켜 SSD/HDD 프로비저닝 및 클라우드 스토리지 비용을 직접 절감한다.
- 성능 영향: 지연 및 처리량 감소가 한 자릿수 퍼센트 내에 머물러 대부분의 애플리케이션에서는 거의 눈에 띄지 않는다.
- 확장성: 시스템은 선형적으로 확장된다; PolarCSD‑지원 노드를 추가해도 압축 비율과 성능 특성은 유지된다.
Practical Implications
- 비용 효율적 확장: 클라우드‑네이티브 DBaaS 제공자는 스토리지 비용을 비례적으로 늘리지 않고도 고객에게 더 큰 데이터베이스 용량을 제공할 수 있다.
- 운영 간소화: 압축이 데이터베이스 엔진에 투명하게 적용되므로 개발자는 쿼리를 재작성하거나 별도 압축 레이어를 관리할 필요가 없다.
- 하드웨어 가속 워크로드: PolarCSD ASIC은 기존 스토리지 서버(NVMe‑over‑Fabric, 분산 스토리지)에 최소한의 펌웨어 변경만으로 통합될 수 있어 레트로핏이 가능하다.
- 멀티‑테넌트 격리 개선: 높은 압축 비율은 동일 물리 클러스터 내에 추가 테넌트를 위한 공간을 확보해 전체 활용도를 높인다.
- 엣지‑클라우드 가능성: 경량 소프트웨어 단계 덕분에 전체 하드웨어 압축기를 배치하기 어려운 소형 엣지 노드에서도 동일 아키텍처를 적용할 수 있다.
Limitations & Future Work
- 워크로드 의존성: 압축 효과는 데이터 엔트로피에 따라 달라진다; 무작위성이 높거나 이미 압축된 블롭(예: 미디어 파일)에서는 이점이 제한적이다.
- 하드웨어 가용성: PolarCSD는 맞춤형 ASIC이므로, 설계 오픈소싱 또는 범용 가속기로 제공되지 않으면 채택이 제한된다.
- 동적 재압축: 현재 시스템은 접근 패턴이 변해도 자동으로 재압축하지 않는다; 향후 적응형 재압축 트리거를 추가할 수 있다.
- 보안 고려사항: 압축은 무손실이지만, 하드웨어 단계와 암호화(예: TLS‑offload)를 결합하는 문제는 아직 해결되지 않았다.
PolarStore는 하드웨어와 소프트웨어의 신중한 공동 설계가 전통적인 성능‑대‑압축 트레이드오프를 깨뜨릴 수 있음을 보여준다. 이를 통해 클라우드‑네이티브 데이터베이스에 실질적인 비용 절감을 제공하면서도 개발자 경험을 손상시키지 않는다.
Authors
- Qingda Hu
- Xinjun Yang
- Feifei Li
- Junru Li
- Ya Lin
- Yuqi Zhou
- Yicong Zhu
- Junwei Zhang
- Rongbiao Xie
- Ling Zhou
- Bin Wu
- Wenchao Zhou
Paper Information
- arXiv ID: 2511.19949v1
- Categories: cs.DC, cs.DB
- Published: November 25, 2025
- PDF: Download PDF