옵트인 NVIDIA 소프트웨어, 데이터 센터 플릿 관리 가능

발행: (2025년 12월 11일 오전 08:49 GMT+9)
6 min read

Source: NVIDIA AI Blog

AI 인프라의 규모와 복잡성이 커짐에 따라 데이터 센터 운영자는 성능, 온도, 전력 사용량 등 다양한 요소를 지속적으로 파악해야 합니다. 이러한 인사이트를 통해 운영자는 대규모 분산 시스템 전반에 걸쳐 구성을 적극적으로 모니터링하고 조정하여 최고 효율성과 신뢰성을 유지하고 있음을 검증할 수 있습니다.

NVIDIA는 NVIDIA GPU 군집을 시각화하고 모니터링할 수 있는 소프트웨어 솔루션을 개발하고 있습니다. 이를 통해 클라우드 파트너와 기업은 GPU 가동 시간을 높일 수 있는 인사이트 대시보드를 제공받게 됩니다. 이 서비스는 선택적이며 고객이 설치하는 형태로, GPU 사용량, 구성 및 오류를 모니터링합니다. 또한 NVIDIA가 지속적으로 지원하고 있는 오픈·투명 소프트웨어의 일환으로, 오픈소스 클라이언트 소프트웨어 에이전트를 포함합니다.

핵심 기능

  • 전력 사용량 급증을 추적하여 에너지 예산을 초과하지 않으면서 와트당 성능을 극대화합니다.
  • 군집 전체의 활용도, 메모리 대역폭, 인터커넥트 상태를 모니터링합니다.
  • 핫스팟 및 공기 흐름 문제를 조기에 감지해 열 스로틀링 및 조기 부품 노화를 방지합니다.
  • 일관된 소프트웨어 구성 및 설정을 확인하여 재현 가능한 결과와 안정적인 운영을 보장합니다.
  • 오류와 이상 징후를 찾아내어 고장 부품을 조기에 식별합니다.

이러한 기능은 기업 및 클라우드 제공업체가 GPU 군집을 시각화하고 시스템 병목 현상을 해결하며 생산성을 최적화하여 투자 대비 높은 수익을 얻을 수 있도록 돕습니다.

선택적 서비스는 각 GPU 시스템이 외부 클라우드 서비스와 통신하여 메트릭을 공유하도록 함으로써 실시간 모니터링을 제공합니다. NVIDIA GPU는 하드웨어 추적 기술, 킬 스위치 및 백도어를 가지고 있지 않습니다(관련 기사).

데이터 센터 소유자를 위한 오픈소스 에이전트 인사이트

이 서비스는 고객이 설치할 수 있는 클라이언트 소프트웨어 에이전트를 제공하며, 이를 통해 노드 수준 GPU 텔레메트리 데이터를 NVIDIA NGC에 호스팅된 포털로 스트리밍합니다. 고객은 전 세계 또는 컴퓨트 영역(같은 물리적 또는 클라우드 위치에 배치된 노드 그룹)별로 GPU 군집 활용도를 대시보드에서 시각화할 수 있습니다.

Dashboard provides insight into GPU status across a customer’s global fleet

클라이언트 툴링 에이전트는 오픈소스로 공개될 예정이며, 투명성과 감사 가능성을 제공합니다. 이는 고객이 NVIDIA 도구를 자체 솔루션에 통합하여 GPU 인프라를 모니터링하는 방법에 대한 실용적인 예시를 제공합니다—핵심 컴퓨트 클러스터든 전체 군집이든 관계없이 말이죠.

이 소프트웨어는 기업의 GPU 재고에 대한 인사이트를 제공하지만 GPU 구성이나 기본 동작을 수정할 수는 없습니다. 고객이 관리하고 맞춤화할 수 있는 읽기 전용 텔레메트리 데이터를 제공하며, 서비스는 GPU 군집 정보를 상세히 담은 보고서를 생성할 수 있게 합니다.

AI 애플리케이션이 수와 복잡성이 증가함에 따라 현대 AI 인프라 관리도 그에 맞춰 진화하고 있습니다. AI가 모든 산업과 애플리케이션을 혁신함에 따라 AI 데이터 센터가 최적의 상태로 운영되는 것이 매우 중요합니다. 이 소프트웨어 서비스는 이를 지원하도록 설계되었습니다.

*더 자세히 알아보려면 **NVIDIA GTC*에 등록하세요. (2025년 3월 16‑19일, 캘리포니아 주 산호세 개최)

*소프트웨어 제품 정보에 관한 **공지사항*을 확인하세요.

Back to Blog

관련 글

더 보기 »