Show HN: Utilyze – 오픈 소스 GPU 모니터링 툴, nvtop보다 더 정확함
Source: Hacker News
설명
nvidia-smi, nvtop, Weights & Biases, Amazon CloudWatch, Google Cloud Monitoring, 그리고 Azure Monitor에서 보고하는 표준 GPU 사용률 지표는 매우 오해를 불러일으킵니다. 이 지표는 GPU에서 어떤 커널이라도 실행되는 시간 비율을 나타내므로, 실제 컴퓨팅 용량의 일부분만 사용되고 있더라도 GPU가 100 % 사용률을 보고할 수 있습니다. 실제로 워크로드는 약 1–10 % 수준의 실제 컴퓨팅 처리량을 보이면서도 대시보드에는 100 %가 표시되는 경우가 많습니다.
팀이 용량 계획이나 최적화 결정을 위해 이 지표에 의존하게 되면, 실제로는 활용도가 낮은 시스템이 포화된 것처럼 보이는 문제가 발생합니다.
우리는 GPU 사용률을 다르게 측정하는 오픈소스(Apache 2.0) 도구 Utilyze를 공개합니다. 이 도구는 하드웨어 성능 카운터를 샘플링하고, 하드웨어 이론적 한계에 대비한 컴퓨팅 및 메모리 처리량을 보고합니다. 또한 주어진 워크로드에 대한 달성 가능한 사용률 상한도 추정합니다.
GitHub:
토론
댓글: