SLIs、SLOs、SLAs：SRE 的秘密配方指南

发布: 2个月前 (2026年2月11日 GMT+8 09:53)

4 分钟阅读

原文: Dev.to

Source: Dev.to

如果你想成为一名 SRE——真正的站点可靠性巫师，就必须掌握这门行业的语言。它不是“安装 Prometheus”或“部署 Kubernetes”。而是 SLI、SLO、SLA 和错误预算——保持服务存活、让老板不再盯着你的三位一体。

Service Level Indicator (SLI)

SLI 就是你服务的“街头八卦”：它告诉你从用户视角看服务到底是怎么表现的，而不是某个技术指标图表。

用户不在乎 CPU 负载、内存使用或线程池，这些指标与他们无关。SLI 才是人们关心的数字；它们是你的现实检验。把 SLI 当作服务的脉搏——脉搏下降，麻烦就要来了。

SLO 是你（或团队）对可接受水平的承诺。

这不是追求完美，而是“足够好”。追求 100 % 的可用性成本高得离谱。没有人关心完美；SRE 关注的是可管理的可靠性。

SLA 是你与付费用户之间的法律合同。若违约，用户可以要求退款或赔偿。

SLA 是 SLO 的成人版——此时律师会介入。你的内部指标（SLI、SLO）是用来避免 SLA 违约的工具。

每个 SLO 都伴随一个错误预算。

示例：99.9 % 的结账请求在 < 500 ms 内完成的 SLO，意味着你拥有 0.1 % 的错误预算。这个 0.1 % 就是你在出现问题前可以容忍的失败比例。

错误预算是决策工具：

错误预算帮助你在速度与可靠性之间取得平衡，把灭火工作转化为智能的部署决策。