[Paper] AI 驱动的云资源优化在多集群环境中

发布: 1个月前 (2025年12月31日 GMT+8 23:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.24914v1

Overview

本文介绍了一个由 AI 驱动的框架，使云运营商能够以主动、协同的方式管理跨多个集群的资源。通过将遥测数据转化为预测性洞察，系统可以自动重新平衡 CPU、内存和存储，以满足性能、成本和可靠性目标——这是传统的、被动的、单集群工具难以实现的。

数据收集： 框架将每个集群的指标（CPU、内存、网络 I/O）、事件日志和部署描述符聚合到中央遥测存储中。
特征工程： 提取时间特征（例如移动平均、季节性）和跨集群相关特征（例如 “集群 A 的请求率影响集群 B 的缓存命中率”）。
预测学习： 使用轻量级 LSTM 基于时间序列的模型（离线训练，在线微调）预测每个集群在接下来 5–15 分钟的资源需求。
策略编码： 运维人员在声明式 YAML 格式中定义约束（预算上限、延迟 SLA、冗余要求），这些约束被转换为多目标成本函数。
优化引擎： 通过混合整数线性规划（MILP）求解器，系统计算在满足预测需求的前提下最小化成本函数的分配方案。
执行与反馈： 方案通过 Kubernetes 横向/纵向 Pod 自动伸缩器和 Cluster‑API 扩缩动作实施。执行后的遥测数据反馈给模型，实现持续学习。

原型在满足延迟目标的同时，始终将成本控制在用户定义的预算之下，即使工作负载在不同地区之间切换。反馈回路防止了模型漂移，使预测误差在首次 24 小时运行后保持在 5 % 以下。

成本节约: 企业可以缩减数据中心范围内的过度预配容量，直接转化为更低的云费用。
开发者体验: 团队不再需要为每个集群手动调优自动伸缩规则；系统会自动适配，降低运维负担。
弹性与合规: 基于策略的伸缩遵循冗余区和数据主权约束，帮助满足监管要求，无需额外人工检查。
边缘与混合部署: 同一预测引擎可扩展到资源上限更紧的边缘节点，实现从云到边缘的统一管理。
集成路径: 由于该框架接入现有的 Kubernetes API（CRD、HPA/VPA），采用可以逐步进行——先在单个“试点”集群上使用，再推广到整个集群群组。

总体而言，研究展示了人工智能如何将云资源管理从被动的“灭火”式响应转变为主动的、全系统的优化——这一演进有望为开发者、运维团队以及业务领袖带来切实的收益。