[Paper] 基于SLO驱动且成本感知的Kubernetes自动伸缩框架

发布: 3周前 (2025年12月29日 GMT+8 20:20)

7 min read

原文: arXiv

抱歉，我无法直接访问外部链接获取文章内容。请您把需要翻译的文本粘贴在这里，我会按照您的要求将其翻译成简体中文，并保留原始的格式、Markdown 语法以及技术术语。

概览

本文提出了一种面向 Kubernetes 的全新自动伸缩框架，将服务水平目标（SLO）和成本效率置于首位。通过将轻量级需求预测与 AIOps 风格的多信号控制相结合，作者展示了相较于内置的水平/垂直 Pod 自动伸缩器，云原生工作负载能够以更主动、安全且透明的方式进行伸缩。

基于差距的分析现有的 Kubernetes 自动伸缩器，明确它们为何常常未达 SLO 目标或在资源上超支。
安全且可解释的多信号自动伸缩循环，同时使用基础设施指标（CPU、内存）和应用层信号（延迟、请求率）。
集成的 SLO 感知和成本感知控制器，在性能保证与预算约束之间取得平衡。
轻量级需求预测模块（使用简单的时间序列技术），为控制器提供短期工作负载预测。
在微服务和事件驱动基准上进行的大规模实验评估，显示相较于调优后的 Kubernetes 默认设置，可将 SLO 违规时间降低最高 31%，伸缩响应加快 24%，基础设施成本降低 18%。

Signal Collection – 框架接入来自集群的 Prometheus‑style 指标（CPU、内存、pod counts）以及应用层 KPI（例如第 95 百分位延迟）。
Demand Forecasting – 轻量级 ARIMA/Exponential Smoothing 模型预测未来几分钟的请求量，避免使用重量级 ML 流水线。
Control Engine – 基于规则、经过安全检查的控制器评估三个约束：
- SLO feasibility（预测的负载是否能在延迟预算内得到服务？）
- Cost budget（提议的扩容是否保持在成本上限之下？）
- Stability guardrails（最小/最大副本数、冷却周期）。
  控制器随后向 Kubernetes API 发出扩缩容操作（HPA/VPA 或自定义 pod‑scale CRDs）。
Explainability Layer – 每一次扩缩容决策都会记录相关信号和推理路径，使运维人员能够审计和调试其行为。
Evaluation Setup – 作者部署了两个具代表性的工作负载：经典的微服务电商系统和事件驱动的订单处理流水线，分别在突发、周期性和随机流量模式下进行测试。基线包括默认 HPA、调优后的 HPA，以及 HPA+VPA 的组合。

结果表明，通过预测需求并显式权衡成本，系统能够在延迟峰值出现之前提前提供足够的 pod，同时避免在空闲期间的过度配置。

结论：通过将 SLO‑优先的思维与成本意识及透明控制相结合，这项研究为组织提供了一条务实的路径，使 Kubernetes 自动伸缩既可靠又经济——对开发者、运维人员和财务部门都是双赢。