Red Hat OpenShift Service on AWS 支持机器学习的容量预留和容量块

发布: (2025年12月3日 GMT+8 08:00)
4 min read

Source: Red Hat Blog

为什么保证容量很重要

在特定可用区 (AZ) 中保持对特定基础设施类型的保证或不间断访问,对多种关键场景至关重要:

  • 基于 GPU 的加速计算工作负载 – 对 GPU 实例的持续访问对进行训练、微调或推理的 AI/ML 团队至关重要。容量预留消除了这些时间敏感、资源密集型任务的计算不可用风险。
  • 计划的扩容事件 – 在高峰流量季节、重大产品发布或计划的批处理期间,能够自信地提供支持,而不会出现供应延迟。
  • 高可用性和灾难恢复 – 通过在多个 AZ 部署工作负载或在跨区域执行灾难恢复协议时保证容量,提升弹性。

用于 ML 的容量预留和容量块

  • Amazon EC2 Capacity Reservations 让您可以在特定 AZ 为 EC2 实例预留计算容量,期限可自行决定。
  • Capacity Blocks for ML 让您可以在未来的某个日期预留基于 GPU 的加速计算实例,以支持短时的 ML 工作负载。

随着对托管控制平面 (HCP) 集群的容量预留支持,平台管理员可以创建直接使用 AWS 已预留容量的 ROSA 机器池。

使用 ROSA 进行容量预留的关键最佳实践

  • 预先规划 AZ、实例类型和容量 – 确保预留容量与 ROSA 机器池属性(VPC 子网、节点副本数、实例类型)精确匹配。在为使用该预留的 ROSA 机器池进行配置之前,等待 AWS Capacity Reservation 状态变为 active
  • 选择合适的实例匹配标准 – AWS 为 ODCR(On‑Demand Capacity Reservations)提供两种匹配标准:“Open” 和 “Targeted”。对于应专门使用 ROSA 集群预留容量的工作负载,强烈建议使用 targeted 标准。请记住,ODCR 采用“用完即失效”原则,并且无论使用率如何,都按按需费率计费。
  • 控制预留容量的消费方式 – ROSA 允许您定义当预留容量耗尽时,机器池是回退到按需实例,还是直接失败。
  • 集中采购和分配 – 拥有多个 AWS 账户的组织可以集中购买 ODCR,并通过 AWS Resource Access Manager 将其分配给成员账户。ROSA 完全支持使用共享到创建集群的 AWS 账户的 Capacity Reservations,从而简化财务管理。
  • 主动监控预留利用率 – 由于预留可能在多个工作负载或账户之间共享,需要持续监控利用率。对潜在耗尽进行规划,可防止 ROSA 集群节点因关键工作负载而不可用。

进一步阅读

  • 了解如何在 AWS 文档 中购买 Capacity Reservations 和 Capacity Blocks for ML。
  • Managing Nodes 章节中了解如何在 ROSA 集群中管理机器池并设置容量偏好,详见 ROSA 文档
  • ROSA 产品页面 上开始使用 ROSA。
Back to Blog

相关文章

阅读更多 »

Friday Five — 2025年12月5日

https://www.redhat.com/rhdc/managed-files/styles/default_800/private/number-1.png.webp?itok=pDWx13kK Red Hat 将在 AWS 上提供增强的 AI 推理