Opt‑In NVIDIA 软件实现数据中心机群管理

发布: 1个月前 (2025年12月11日 GMT+8 07:49)

5 分钟阅读

Source: NVIDIA AI Blog

随着 AI 基础设施规模和复杂性的提升，数据中心运营商需要持续可视化包括性能、温度和功耗在内的各项因素。这些洞察使运营商能够在大规模、分布式系统中主动监控并调整配置——确保系统以最高的效率和可靠性运行。

NVIDIA 正在开发一款用于可视化和监控 NVIDIA GPU 集群的软件解决方案，为云合作伙伴和企业提供洞察仪表盘，帮助提升计算基础设施中 GPU 的正常运行时间。该产品是一项可自行选择、由客户自行安装的服务，监控 GPU 的使用情况、配置和错误。它包含一个开源客户端软件代理——是 NVIDIA 持续支持开放、透明软件、帮助客户充分利用 GPU 计算系统的一部分。

关键功能

跟踪功耗峰值，在最大化每瓦性能的同时保持在能源预算范围内。
监控整个集群的利用率、内存带宽和互连健康状况。
及早发现热点和气流问题，防止热降频和组件过早老化。
确认软件配置和设置的一致性，以确保结果可复现、运行可靠。
捕捉错误和异常，提前识别故障部件。

这些功能帮助企业和云服务提供商可视化其 GPU 集群，解决系统瓶颈，并优化生产力，以获得更高的投资回报。

该可选服务通过让每台 GPU 系统与外部云服务通信并共享指标，实现实时监控。NVIDIA GPU 不具备硬件追踪技术、kill switches 和后门。

开源代理为数据中心所有者提供洞察

该服务包含一个客户端软件代理，客户可以安装它，将节点级别的 GPU 遥测数据流式传输到托管在 NVIDIA NGC 上的门户。客户可以在仪表盘中可视化其 GPU 集群的利用率，支持全局视图或按计算区（同一物理或云位置下的节点组）查看。

仪表盘提供对客户全球 GPU 集群状态的洞察

客户端工具代理也计划开源，以提供透明性和可审计性。它提供了一个可运行的示例，展示客户如何将 NVIDIA 工具整合到自有的 GPU 基础设施监控解决方案中——无论是关键计算集群还是整支舰队。

该软件提供对公司 GPU 资产的洞察，但无法修改 GPU 配置或底层操作。它提供只读遥测数据，由客户自行管理并可定制。服务还允许客户生成详细的 GPU 集群信息报告。

随着 AI 应用数量和复杂性的增长，现代 AI 基础设施管理正不断演进以跟上步伐。确保 AI 数据中心保持最佳健康状态至关重要，因为 AI 正在改变每个行业和应用场景。此软件服务正是为此而设计。

注册参加将在加利福尼亚州圣何塞举办的 NVIDIA GTC（3 月 16‑19 日），了解更多信息。

请参阅关于软件产品信息的声明。

Opt‑In NVIDIA 软件实现数据中心机群管理

关键功能

开源代理为数据中心所有者提供洞察

相关文章

NVIDIA 收购开源工作负载管理提供商 SchedMD

NVIDIA 正在推动工业革命的 3 种方式

如何 NVIDIA H100 GPU 在 CoreWeave 的 AI 云平台上实现创纪录的 Graph500 运行

致力于消除采用核能的障碍