Red Hat OpenShift Service on AWS 支持机器学习的容量预留和容量块
发布: (2025年12月3日 GMT+8 08:00)
4 min read
原文: Red Hat Blog
Source: Red Hat Blog
为什么保证容量很重要
在特定可用区 (AZ) 中保持对特定基础设施类型的保证或不间断访问,对多种关键场景至关重要:
- 基于 GPU 的加速计算工作负载 – 对 GPU 实例的持续访问对进行训练、微调或推理的 AI/ML 团队至关重要。容量预留消除了这些时间敏感、资源密集型任务的计算不可用风险。
- 计划的扩容事件 – 在高峰流量季节、重大产品发布或计划的批处理期间,能够自信地提供支持,而不会出现供应延迟。
- 高可用性和灾难恢复 – 通过在多个 AZ 部署工作负载或在跨区域执行灾难恢复协议时保证容量,提升弹性。
用于 ML 的容量预留和容量块
- Amazon EC2 Capacity Reservations 让您可以在特定 AZ 为 EC2 实例预留计算容量,期限可自行决定。
- Capacity Blocks for ML 让您可以在未来的某个日期预留基于 GPU 的加速计算实例,以支持短时的 ML 工作负载。
随着对托管控制平面 (HCP) 集群的容量预留支持,平台管理员可以创建直接使用 AWS 已预留容量的 ROSA 机器池。
使用 ROSA 进行容量预留的关键最佳实践
- 预先规划 AZ、实例类型和容量 – 确保预留容量与 ROSA 机器池属性(VPC 子网、节点副本数、实例类型)精确匹配。在为使用该预留的 ROSA 机器池进行配置之前,等待 AWS Capacity Reservation 状态变为 active。
- 选择合适的实例匹配标准 – AWS 为 ODCR(On‑Demand Capacity Reservations)提供两种匹配标准:“Open” 和 “Targeted”。对于应专门使用 ROSA 集群预留容量的工作负载,强烈建议使用 targeted 标准。请记住,ODCR 采用“用完即失效”原则,并且无论使用率如何,都按按需费率计费。
- 控制预留容量的消费方式 – ROSA 允许您定义当预留容量耗尽时,机器池是回退到按需实例,还是直接失败。
- 集中采购和分配 – 拥有多个 AWS 账户的组织可以集中购买 ODCR,并通过 AWS Resource Access Manager 将其分配给成员账户。ROSA 完全支持使用共享到创建集群的 AWS 账户的 Capacity Reservations,从而简化财务管理。
- 主动监控预留利用率 – 由于预留可能在多个工作负载或账户之间共享,需要持续监控利用率。对潜在耗尽进行规划,可防止 ROSA 集群节点因关键工作负载而不可用。