掌握 SRE 的 Error Budgets

发布: 3天前 (2026年2月7日 GMT+8 16:00)

10 分钟阅读

It looks like only the source citation was provided, but the article text you’d like translated isn’t included. Could you please paste the content you want translated (excluding code blocks and URLs), and I’ll convert it to Simplified Chinese while preserving the original formatting?

介绍

想象一下，作为一名 DevOps 工程师值班时，深夜收到分页警报，提示关键服务宕机。你的团队紧急排查根本原因，但问题仍未解决，服务水平协议（SLA）面临违约风险。

这种情况在生产环境中屡见不鲜，可靠性和监控至关重要。错误预算——站点可靠性工程（SRE）的核心概念——可以通过提供管理和优先处理错误的框架，帮助缓解此类问题。

在本文中，我们将探讨：

为什么错误预算很重要
它们与服务水平目标（SLO）和 SLA 的关系
实施步骤和最佳实践
实际案例与验证技术

阅读完本教程后，你将深入了解如何运用错误预算来提升服务的可靠性和监控水平。

错误预算、SLO 和 SLA

SLO – 期望的服务可靠性水平（例如，“99.9 % 可用性”）。
SLA – 服务提供方与客户之间的正式协议，通常引用一个或多个 SLO。
错误预算 – 在给定时间窗口内允许的错误（停机时间、失败请求等）量。

当错误发生时，它们会消耗错误预算的一部分。如果预算被超出，服务未达成其 SLO，需要采取纠正措施。

错误预算耗尽的典型症状：

症状	常见原因
↑ 错误率	Bug、配置错误、上游故障
响应时间变慢	资源饱和、网络延迟
吞吐量下降	数据库争用、限流

真实案例 – 一个支付处理服务因数据库问题导致交易失败激增。错误预算被超出，触发调查和修复。

前置条件

监控系统（例如 Prometheus、Grafana）
日志平台（例如 ELK、Splunk）
基础的 Kubernetes 与容器编排知识
熟悉 SRE 原则和实践
用于实验和验证的测试环境

诊断错误预算问题

收集数据 来自监控和日志系统。
查询错误率和响应时间。
分析日志以寻找模式和趋势。
检查使用 kubectl 的 pod 状态和资源利用率。

# Query Prometheus for error rates
curl -G 'http://prometheus:9090/api/v1/query' \
     --data-urlencode 'query=rate(errors[1m])'

# Inspect pod status using kubectl
kubectl get pods -A | grep -v Running

预期的 Prometheus 响应（示例）

{
  "data": {
    "result": [
      {
        "metric": {
          "job": "my-service",
          "service": "my-service"
        },
        "values": [
          [1643723400, "10"],
          [1643723460, "12"],
          [1643723520, "15"]
        ]
      }
    ]
  }
}

实施错误预算

1. 定义 SLO

# Example SLO definition (conceptual)
slo:
  target: 99.9   # percent availability
  window: 30d    # evaluation period

2. 计算允许的错误率

# 5 % of total requests allowed as errors
allowed_error_rate=$(echo "scale=2; 0.05 * 100" | bc)
echo $allowed_error_rate   # → 5.00

3. 创建监控仪表盘

# Create a Grafana dashboard (requires Grafana CLI & auth token)
grafana-cli --url http://grafana:3000 \
            --auth-token my-token \
            dashboard create \
            --title "Error Budget Dashboard"

4. 部署用于监控的 Kubernetes 清单

# ConfigMap with error‑budget parameters
apiVersion: v1
kind: ConfigMap
metadata:
  name: error-budget-config
data:
  allowed-error-rate: "5"          # percent
  error-budget-window: "1h"        # time window
---
# PrometheusRule to fire an alert when the budget is exceeded
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: error-budget-rules
spec:
  groups:
  - name: error-budget.rules
    rules:
    - alert: ErrorBudgetExceeded
      expr: rate(errors[1m]) > 5
      for: 5m
      labels:
        severity: critical
      annotations:
        summary: "Error budget exceeded for my-service"

验证实现

监控错误率和预算消耗随时间的变化。
验证当预算超额时警报是否触发。
测试整改工作流（例如，自动扩容、回滚）。

# Verify current error rate
curl -G 'http://prometheus:9090/api/v1/query' \
     --data-urlencode 'query=rate(errors[1m])'

# Validate that the alert is present
kubectl get alerts -A | grep ErrorBudgetExceeded

示例成功输出

{
  "data": {
    "result": [
      {
        "metric": {
          "job": "my-service",
          "service": "my-service"
        },
        "values": [
          [1643723400, "3"],
          [1643723460, "4"],
          [1643723520, "2"]
        ]
      }
    ]
  }
}

完整示例

示例 1 – 简单的错误预算配置

apiVersion: v1
kind: ConfigMap
metadata:
  name: error-budget-config
data:
  allowed-error-rate: "5"
  error-budget-window: "1h"
---
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: error-budget-rules
spec:
  groups:
  - name: error-budget.rules
    rules:
    - alert: ErrorBudgetExceeded
      expr: rate(errors[1m]) > 5
      for: 5m
      labels:
        severity: critical
      annotations:
        summary: "Error budget exceeded for my-service"

示例 2 – 用于计算错误预算的 Python 脚本

import requests

def calculate_error_budget(allowed_error_rate, error_budget_window):
    """Fetch current error rate from Prometheus and compute the budget."""
    resp = requests.get(
        'http://prometheus:9090/api/v1/query',
        params={'query': 'rate(errors[1m])'}
    )
    resp.raise_for_status()
    # Extract the most recent value
    error_rate = float(resp.json()['data']['result'][0]['values'][0][1])
    # Simple budget calculation (allowed_rate * window in seconds)
    error_budget = allowed_error_rate * error_budget_window
    return error_rate, error_budget

allowed_error_rate = 0.05          # 5 %
error_budget_window = 3600        # 1 hour (seconds)

current_rate, budget = calculate_error_budget(allowed_error_rate, error_budget_window)
print(f"Current error rate: {current_rate}")
print(f"Error budget (allowed errors per window): {budget}")

结束语

错误预算弥合了 可靠性目标 与 业务现实 之间的差距。通过量化可接受的“故障”程度，团队可以基于数据做出以下决策：

何时投资于可靠性改进
何时推出新功能，即使出现轻微降级
如何向利益相关者沟通风险

执行上述步骤，迭代你的 SLO，并让错误预算成为 SRE 实践中活跃的一部分。监控愉快！

实施错误预算时需要注意的常见错误

监控数据不足 – 确保拥有健全的监控系统，收集准确的数据。
SLO 定义错误 – 确保你的 SLO 现实可行并与业务需求保持一致。
警报不足 – 配置在错误预算超出时触发的警报，并验证补救工作流的有效性。
缺乏持续改进 – 定期审查并完善错误预算的实施，以保持其有效性。
指标不一致 – 在监控和日志系统中使用一致的指标，避免混淆和错误。

实施错误预算的关键要点

定义明确的SLO和错误预算策略
实施强大的监控和日志系统
使用一致的指标和告警阈值
持续审查并完善错误预算的实施
确保有效的补救工作流已就绪
向利益相关者沟通错误预算状态和变更

错误预算是管理和优先处理生产环境中错误的强大工具。通过理解其概念并有效实施错误预算，您可以提升服务的可靠性和监控水平。

想要精通 Kubernetes 故障排除吗？查看以下资源

工具 / 资源	描述
Lens	让调试速度提升 10 倍的 Kubernetes IDE
k9s	基于终端的 Kubernetes 仪表盘
Stern	Kubernetes 多 Pod 日志实时追踪
Kubernetes Troubleshooting in 7 Days	一步步的邮件课程（$7）
“Kubernetes in Action”	权威指南（Amazon）
“Cloud Native DevOps with Kubernetes”	生产最佳实践

订阅 DevOps Daily 新闻通讯

每周精选 3 篇文章
生产事故案例研究
独家故障排除技巧

在此订阅

掌握 SRE 的 Error Budgets

介绍

错误预算、SLO 和 SLA

前置条件

诊断错误预算问题

预期的 Prometheus 响应（示例）

实施错误预算

1. 定义 SLO

2. 计算允许的错误率

3. 创建监控仪表盘

4. 部署用于监控的 Kubernetes 清单

验证实现

示例成功输出

完整示例

示例 1 – 简单的错误预算配置

示例 2 – 用于计算错误预算的 Python 脚本

结束语

实施错误预算时需要注意的常见错误

实施错误预算的关键要点

相关主题探索

想要精通 Kubernetes 故障排除吗？查看以下资源

订阅 DevOps Daily 新闻通讯

觉得有帮助吗？与团队分享！

相关文章

OCI 镜像作为 Kubernetes 卷：数据管理的新纪元

安全的多租户 GPU-as-a-Service 在 Kubernetes 上：架构、隔离与大规模可靠性

扫描在 Kubernetes 命名空间中运行的 pod 使用的容器镜像

准备 DevOps 岗位吗？别跳过 VPC Peering。

介绍

错误预算、SLO 和 SLA

前置条件

诊断错误预算问题

预期的 Prometheus 响应（示例）

实施错误预算

1. 定义 SLO

2. 计算允许的错误率

3. 创建监控仪表盘

4. 部署用于监控的 Kubernetes 清单

验证实现

示例成功输出

完整示例

示例 1 – 简单的错误预算配置

示例 2 – 用于计算错误预算的 Python 脚本

结束语

实施错误预算时需要注意的常见错误

实施错误预算的关键要点

相关主题探索

想要精通 Kubernetes 故障排除吗？查看以下资源

订阅 DevOps Daily 新闻通讯

觉得有帮助吗？与团队分享！

相关文章

OCI 镜像作为 Kubernetes 卷：数据管理的新纪元

安全的多租户 GPU-as-a-Service 在 Kubernetes 上：架构、隔离与大规模可靠性

扫描在 Kubernetes 命名空间中运行的 pod 使用的容器镜像

准备 DevOps 岗位吗？别跳过 VPC Peering。

示例 1 – 简单的错误预算配置

示例 2 – 用于计算错误预算的 Python 脚本