更快的 AI 功耗估算方法
Source: MIT News - AI
AI‑驱动的数据中心能源估算
由于人工智能的爆炸性增长,劳伦斯·伯克利国家实验室1估计,到 2028 年,数据中心将消耗 美国总电力的最高 12 %。提升数据中心的能源效率是科学家们努力使 AI 更加可持续的一种途径。
快速功耗预测工具
来自 MIT 和 MIT‑IBM Watson AI 实验室 的研究人员开发了一种快速预测工具,能够告诉数据中心运营商在特定处理器或 AI 加速芯片上运行某个 AI 工作负载时将消耗多少功率。
- 速度: 在几秒钟内提供可靠的功耗估算,而传统建模技术可能需要数小时甚至数天。
- 灵活性: 适用于广泛的硬件配置,包括尚未部署的前沿设计。
数据中心运营商可以利用这些估算在多个 AI 模型和处理器之间分配有限资源,从而提升能源效率。算法开发者和模型提供商也可以在部署前评估新模型的潜在能耗。
“AI 可持续性挑战是我们必须回答的紧迫问题。由于我们的估算方法快速、便捷且提供直接反馈,我们希望它能让算法开发者和数据中心运营商更倾向于考虑降低能耗,” Kyungmi Lee 说,她是 MIT 的博士后,也是这项 技术论文 的第一作者。
合著者
- Zhiye Song – EECS 研究生
- Eun Kyung Lee 与 Xin Zhang – IBM Research 与 MIT‑IBM Watson AI 实验室的研究经理
- Tamar Eilam – IBM Fellow、IBM Research 可持续计算首席科学家,MIT‑IBM Watson AI 实验室成员
- Anantha P. Chandrakasan – MIT 教务长、Vannevar Bush 电气工程与计算机科学教授,MIT‑IBM Watson AI 实验室成员
该研究本周将在 IEEE 国际系统与软件性能分析研讨会 上进行展示。
加速能源估算
在数据中心内部,成千上万的强大图形处理单元(GPU)用于训练和部署 AI 模型。功耗随 GPU 配置和工作负载而变化。
传统的预测方法将工作负载拆分为各个步骤,并在 GPU 内部模拟每个模块——这种方法对大型 AI 工作负载(例如模型训练、数据预处理)可能需要数小时甚至数天。
“作为运营者,如果我想比较不同的算法或配置,以找到最节能的执行方式,单次需要数天的模拟是不可行的,”李解释道。
利用重复模式
MIT 研究人员通过使用 细节更少、可快速估算的信息 来寻找更快的方法。他们观察到,AI 工作负载经常包含许多可重复的模式,这些模式源自软件优化(例如并行核心分配、有效的数据移动)。这些规则结构可以用于快速功耗估算。
由此产生的轻量级模型 EnergAIzer,从这些优化中捕获 GPU 的功耗模式。
精确评估
虽然速度很快,但最初的估算遗漏了某些能耗因素:
- 固定开销:程序设置和配置的成本。
- 每次操作能耗:每个数据块处理时的能耗。
- 方差:由于硬件波动或数据访问冲突导致的有效带宽下降和能耗增加。
为了解决这些问题,团队收集了真实的 GPU 测量数据,并推导出用于模型的 校正项。
“这样,我们既能得到快速的估算,又能保持很高的准确性,”Lee 说。
EnergAIzer 工作原理
- 输入:工作负载细节(AI 模型、输入数量/长度等)。
- 可选调整:GPU 配置、运行速度或其他设计选项。
- 输出:以秒为单位的能耗估计。
在实际 GPU 工作负载测试中,EnergAIzer 的 ≈ 8 % 误差 与传统需要数小时的测量方法相当。只要硬件在短时间内没有剧烈变化,该模型还可以预测 未来 GPU 以及新兴设备配置 的功耗。
未来方向
- 在最新的 GPU 配置上测试 EnergAIzer。
- 将模型扩展以处理多个 GPU 协同工作负载。
- 提供快速的跨堆栈能耗估算解决方案,以支持硬件设计决策和可持续发展目标。
参考文献
“……设计者、数据中心运营商和算法开发者,以便他们都能更好地了解功耗。借助此工具,我们已朝着这一目标迈出了一步,”Lee 说。
资金致谢
本研究部分由 MIT‑IBM Watson AI Lab 资助。