[Paper] AI 데이터센터를 위한 조정된 냉각 및 컴퓨트 관리
발행: (2026년 1월 13일 오전 10:07 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2601.08113v1
개요
대규모 언어 모델(LLM) 추론을 호스팅하는 AI 데이터센터는 지구상에서 가장 전력을 많이 소비하는 시설 중 하나입니다. 연구자들은 오랫동안 GPU에서 더 많은 연산을 끌어내려 노력했지만, 그 GPU가 발생시키는 열과 이를 안전하게 유지하기 위한 냉각 시스템은 대부분 간과해 왔습니다. 본 논문은 연산 스케줄링과 열 관리를 공동으로 모델링하고, 이를 활용해 계층형 컨트롤러를 구동함으로써 지연 시간에 영향을 주지 않으면서 에너지 사용을 줄이는 방법을 제시합니다.
핵심 기여
- Empirical profiling은 다양한 AI 워크로드와 냉각 설정점 하에서 GPU 서버를 프로파일링하여 GPU 주파수, 병렬성, 열 발생 사이의 긴밀한 결합을 드러낸다.
- Joint compute‑thermal model은 LLM 추론의 성능 동역학(병렬성, DVFS)과 데이터센터 냉각 인프라의 열역학적 반응을 모두 포착한다.
- Hierarchical control framework는 최적의 GPU 병렬성, 동적 전압‑주파수 스케일링(DVFS) 레벨, 그리고 냉각 액추에이터 설정(예: 팬 속도, 냉수 흐름)을 동시에 선택한다.
- Real‑world validation은 Azure 추론 트레이스와 상세 GPU 텔레메트리를 사용하여 지연 시간 서비스 수준 목표(SLO)를 준수하면서 측정 가능한 에너지 절감을 보여준다.
- Open‑source artifact(시뮬레이션 스크립트 및 모델 파라미터)은 재현성과 컴퓨트‑열 공동 최적화에 대한 추가 연구를 가능하게 한다.
방법론
- Workload Characterization – 저자들은 Azure GPU 서버에서 인기 있는 LLM 추론 워크로드(예: GPT‑2, BERT)를 실행하면서 세밀한 메트릭(GPU 사용률, 온도, 전력 소모)을 수집했습니다. 두 가지 조정 변수를 변화시켰습니다: 병렬 추론 요청 수(병렬성)와 GPU 주파수(DVFS를 통해).
- Thermal Modeling – 수집된 데이터를 활용해 물리학에서 영감을 받은 모델을 구축했으며, 이 모델은 전체 GPU 전력, 공기 흐름, 냉각 시스템 설정값을 입력으로 랙 수준 온도를 예측합니다. 모델은 온라인 제어에 충분히 가볍습니다.
- Joint Optimization Problem – 전체 에너지(컴퓨팅 + 냉각)를 최소화하면서 요청 지연 시간을 목표 SLO 이하로 유지하는 제약 최적화를 정의했습니다. 결정 변수는 다음과 같습니다:
- Parallelism (각 GPU가 동시에 처리하는 요청 수)
- DVFS frequency (GPU 클럭 속도)
- Cooling control (팬 속도, 냉수 흐름)
- Hierarchical Controller – 몇 초마다 실행되는 2단계 컨트롤러를 설계했습니다:
- Local layer: 각 서버에서 현재 큐 길이와 온도를 기반으로 병렬성/DVFS를 선택합니다.
- Global layer: 데이터센터 전체에서 냉각 설정값을 조정해 랙 온도가 안전 범위 내에 머물도록 합니다.
- Evaluation – 실제 Azure 추론 로그를 입력으로 사용한 트레이스 기반 시뮬레이터에 컨트롤러를 배치했습니다. 에너지 소비, 지연 시간, 온도를 컴퓨팅만 튜닝(열 인식 없음)하거나 냉각만 튜닝(정적 컴퓨팅)하는 기존 정책과 비교했습니다.
Results & Findings
| Metric | Baseline (compute‑only) | Proposed Co‑opt | % Improvement |
|---|---|---|---|
| Total energy (compute + cooling) | 1.00 × | 0.78 × | 22 % 감소 |
| 99‑th‑percentile latency | 120 ms | 115 ms | 4 % 감소 |
| Average rack temperature | 28 °C | 26 °C | 2 °C 감소 |
| Cooling power share | 45 % of total | 35 % of total | 10 % 절대 감소 |
- 컨트롤러는 지연시간을 SLO(≤ 120 ms) 내에서 유지하면서 전체 전력 소비를 20 % 절감했습니다.
- 고온 기간 동안 GPU 주파수를 적절히 낮춤으로써 시스템은 지연시간 급증을 초래할 수 있는 “열 스로틀링” 스파이크를 방지했습니다.
- 냉각 시스템은 대부분의 시간 동안 팬 속도를 낮게 운영했으며, 이는 전력 믹스가 완전 재생 가능하지 않을 때 탄소 집약도 감소로 이어졌습니다.
실용적 함의
- Datacenter operators는 계층형 컨트롤러를 기존 워크로드 관리자(Kubernetes, Slurm)에 통합하여 성능과 냉각을 자동으로 균형 맞추고, 하드웨어 수명을 연장하며 OPEX를 감소시킬 수 있습니다.
- GPU‑focused AI services(예: inference‑as‑a‑service 플랫폼)는 새로운 레버인 열 인식을 통해 엄격한 지연 시간 SLA를 충족하면서 하드웨어를 과다 프로비저닝하지 않을 수 있습니다.
- Hardware vendors는 보다 풍부한 텔레메트리(코어별 온도, 팬 곡선)와 더 세분화된 DVFS API를 제공하여 보다 긴밀한 컴퓨트‑열 루프를 가능하게 할 수 있습니다.
- Sustainability reporting은 컴퓨트‑냉각 최적화에 따른 에너지 절감 효과를 명확히 귀속시켜 ESG 목표 달성에 도움을 줍니다.
- 모델링 접근 방식은 cloud‑agnostic이며, 온프레미스 AI 클러스터, 엣지 AI 박스, 혹은 신흥 액체 냉각 GPU 팜 등에 이식할 수 있습니다.
제한 사항 및 향후 연구
- 열 모델은 정상 상태 공기 흐름을 가정하며, 급격한 워크로드 급증이나 냉각 시스템 결함으로 인한 빠른 과도 현상을 포착하지 못합니다.
- 실험은 실시간 프로덕션 클러스터에서 실행되는 것이 아니라 트레이스 기반으로 수행되었습니다; 실제 배포 시 기존 오케스트레이션 도구와의 통합 문제를 드러낼 수 있습니다.
- 이 연구는 GPU 중심 추론에 초점을 맞추었으며, 프레임워크를 이기종 가속기(TPU, FPGA) 및 학습 워크로드로 확장하는 것은 향후 연구 과제로 남겨두었습니다.
- 향후 연구에서는 환경 조건 및 전기 요금 변동에 적응하는 강화 학습 기반 컨트롤러와 에너지, 지연 시간, 탄소 배출을 동시에 최소화하는 다목적 최적화를 탐구할 수 있습니다.
저자
- Nardos Belay Abera
- Yize Chen
논문 정보
- arXiv ID: 2601.08113v1
- 분류: eess.SY, cs.DC
- 출판일: 2026년 1월 13일
- PDF: PDF 다운로드