[Paper] HPC 시스템에서 에너지 효율성 분석의 과제: 합성 벤치마크와 Gromacs 평가

발행: 2일 전 (2025년 12월 3일 오후 08:40 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.03697v1

Overview

이 논문은 최신 HPC 시스템에서 에너지 효율을 측정하는 것이 왜 그렇게 간단하지 않은지를 조사한다. 합성 벤치마크와 실제 과학 응용 프로그램(GROMACS)을 두 개의 대형 클러스터(Fritz와 Alex)에서 비교함으로써, Intel Ice Lake/Sapphire Rapids CPU와 Nvidia A40/A100 GPU에서 전력 데이터를 수집하고 해석하는 방식에 숨겨진 함정을 드러낸다. 이들의 발견은 “그린” 성능을 재현 가능한 방식으로 벤치마크하고자 하는 모든 사람에게 경각심을 일깨워준다.

Key Contributions

합성 벤치마크 스위트와 생산 등급 분자 동역학 코드(GROMACS) 간의 체계적인 비교를 이종 CPU‑GPU 노드에서 수행.
인기 프로파일링 도구(LIKWID for CPUs, Nvidia Nsight/PowerAPI for GPUs)가 도입하는 측정 아티팩트에 대한 심층 분석.
샘플링 간격 불일치, 유휴 전력 기준선 드리프트, MPI‑레벨 동기화 효과와 같은 일반적인 오류 원인 식별.
현재 세대 HPC 하드웨어에서 신뢰할 수 있는 에너지 효율 실험을 위한 실용적인 체크리스트 제공.
재현성을 위한 오픈소스 데이터 세트(원시 전력 트레이스, 벤치마크 구성) 공개.

Methodology

하드웨어 플랫폼 – 실험은 두 클러스터에서 수행됨:
- Fritz: 듀얼‑소켓 Intel Ice Lake CPU + Nvidia A40 GPU.
- Alex: 듀얼‑소켓 Intel Sapphire Rapids CPU + Nvidia A100 GPU.
소프트웨어 스택 –
- 전체 CPU 소켓에 걸친 병렬 실행을 위한 MPI (OpenMPI).
- 실제 워크로드로서 GPU‑오프로드된 GROMACS 2023.
- “이상적인” 워크로드를 대표하는 합성 벤치마크 집합(STREAM, LINPACK, 사용자 정의 컴퓨트‑바운드 커널).
계측 –
- LIKWID (RAPL을 통한 코어별 전력 카운터)로 CPU 에너지 측정.
- Nvidia 프로파일링 도구(NVML, Nsight Systems)로 GPU 전력 측정.
- 1 kHz로 샘플링하고 MPI 랭크별로 집계.
실험 설계 –
- 각 벤치마크를 다양한 문제 크기와 MPI 프로세스 수(전체 소켓, 절반 소켓, 하이퍼스레드)에서 실행.
- 벽시계 시간, 총 에너지, 파생 지표(성능‑당‑와트, Joules‑per‑step) 기록.
- 정지 노드에서 “베이스라인” 실행을 수행해 정적 전력 소비량을 정량화.
분석 파이프라인 –
- CPU와 GPU 로그 간 타임스탬프 정렬.
- 통계적 이상치 필터링(±2σ) 적용.
- 합성 벤치마크와 GROMACS 에너지 프로파일을 비교하고 효율 비율 계산.

Results & Findings

Metric	Synthetic Benchmarks	GROMACS (GPU‑offloaded)
Peak Power (CPU)	~210 W per socket	~190 W per socket (GPU 오프로드로 낮음)
Peak Power (GPU)	N/A	~250 W (A100) / ~180 W (A40)
Performance‑per‑Watt	2.8 GFLOP/s /W (이상적)	1.9 GFLOP/s /W (실제)
Energy per MD step	—	0.45 J (A100) vs. 0.58 J (A40)
Measurement variance	±1 % (안정)	±5 % (GPU 비동기 커널로 인한 높은 변동)

합성 벤치마크는 효율성을 크게 과대평가한다. 이는 CPU와 GPU를 지속적으로 가동시키는 반면, GROMACS는 불규칙한 계산/통신 단계가 존재하기 때문이다.
전력 샘플링 세분화가 중요: 1 kHz는 10 Hz 샘플링이 완전히 놓치는 GPU 전력 스파이크를 포착해 에너지 총합에 최대 10 % 오차를 초래한다.
MPI barrier 위치가 유휴 전력을 증가시킬 수 있다; 불필요한 동기화를 제거하면 실행 시간에 영향 없이 측정 에너지를 약 3 % 절감한다.
정적 전력 드리프트(열 스로틀링, 백그라운드 OS 활동)는 장시간 실행 시 총 에너지의 최대 8 %를 차지해 베이스라인 보정의 필요성을 강조한다.

Practical Implications

벤치마크 선택 – “그린” 주장에 합성 스위트만 의존하면 오해를 불러일으킬 수 있다. 개발자는 동일한 CPU‑GPU 상호작용 패턴을 스트레스하는 도메인‑특화 워크로드(GROMACS, LAMMPS 등)를 함께 사용해야 한다.
툴체인 인식 – 프로파일러는 고주파 샘플링 및 타임스탬프 동기화를 위해 적절히 설정되어야 하며, 그렇지 않으면 에너지 예산이 눈에 띄게 차이날 수 있다.
코드 최적화 – 불필요한 MPI barrier를 줄이고 통신과 계산을 겹치게 하면 측정 가능한 에너지 절감 효과를 얻을 수 있다. 이는 많은 MPI 기반 코드에 적용 가능한 저비용 개선책이다.
용량 계획 – 제공된 베이스라인 보정 방법을 사용하면 시스템 관리자는 혼합 CPU‑GPU 워크로드에 대한 전력 한계와 냉각 요구량을 보다 정확히 예측할 수 있다.
벤더 비교 – A40과 A100을 나란히 비교한 결과는 에너지 비용이 주요 고려 사항일 때 하드웨어 업그레이드를 정당화할 구체적인 데이터를 제공한다.

Limitations & Future Work

하드웨어 범위 – 이번 연구에서는 Intel Ice Lake/Sapphire Rapids CPU와 Nvidia A40/A100 GPU만을 다루었으며, AMD EPYC 또는 최신 GPU 아키텍처에서는 결과가 다를 수 있다.
단일 애플리케이션 – GROMACS는 분자 동역학을 대표하지만 AI 학습, 그래프 분석 등 모든 HPC 분야를 대변하지는 않는다. 다른 코드에 대한 확장은 결론을 강화할 것이다.
정적 전력 모델링 – 베이스라인 보정은 선형 드리프트를 가정하는데, 극한 열 조건에서는 이 가정이 맞지 않을 수 있다. 보다 정교한 열‑전력 모델이 필요하다.
향후 방향 – 저자들은 (1) MPI 런타임에 전력 인식 스케줄링 정책을 통합, (2) 측정 아티팩트 자동 탐지 연구, (3) CI 파이프라인에 삽입 가능한 포터블 “에너지‑효율 테스트 하니스” 공개를 계획하고 있다.

Authors

Rafael Ravedutti Lucio Machado
Jan Eitzinger
Georg Hager
Gerhard Wellein

Paper Information

arXiv ID: 2512.03697v1
Categories: cs.DC, cs.MS
Published: December 3, 2025
PDF: Download PDF

[Paper] HPC 시스템에서 에너지 효율성 분석의 과제: 합성 벤치마크와 Gromacs 평가

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 테라헤르츠 무선 통신을 위한 Federated Learning

[Paper] FLEX: FPGA-CPU 시너지 활용을 통한 혼합 셀 높이 Legalization 가속

[Paper] CXL 기반 컴퓨테이셔널 메모리로 오프로드

[Paper] 구조 인식형 불규칙 블로킹 방법을 이용한 Sparse LU Factorization