Google的4个黄金信号

发布: (2026年2月16日 GMT+8 23:58)
7 分钟阅读
原文: Dev.to

Source: Dev.to

介绍

在本文中,我们将讨论巩固 SRE 的一个重要里程碑:Google 的四大黄金信号(Golden Signals)。它们来源于维护和扩展全球最具挑战性的环境之一的经验,已成为业界衡量关键系统健康状况的标准。

这些信号源于在全球规模上监控多个不同服务的实际需求。Google 的 SRE 团队发现,无论系统多么复杂,四个关键指标——只要得到适当监控——就能从用户视角提供系统状态的清晰视图。

摘要: 如果只能监控少数指标,请专注于面向用户的四个指标。这样,团队就能检查真正影响客户体验的内容,降低复杂性和资源浪费。

Golden Signals diagram

Source:

4个黄金信号 (Golden Signals)

1. 延迟

延迟衡量系统响应请求所需的时间——这是用户最直观感受到的指标。要实现有效监控,需要关注:

  • 成功请求的延迟 vs. 失败请求的延迟——失败可能几乎立即返回(例如:HTTP 500),而成功请求可能会出现延迟。
  • 平均值 vs. 分位数——仅使用平均值可能掩盖问题。95 % 或 99 % 分位数能够更真实地反映大多数用户的体验。
  • 错误响应时间——用户对慢速错误信息的感受要比对即时错误更糟糕。

2. 流量

流量表示系统正在处理的需求量。该指标会根据服务类型而变化:

  • Web——每秒 HTTP 请求数,按类型划分(GET、POST 等)。
  • 其他——每秒消息数、已处理的作业数等。

监控流量有助于发现:

  • DDoS 攻击。
  • 上游不稳定导致服务不可用。

提示: 选择最能代表用户对系统施加负载的指标。

3. 错误

错误通常是最重要的指标之一。但“失败”的定义可能会有所不同:

错误类型示例测量方式
显式HTTP 502、503、504直接计数状态码。
隐式HTTP 200 且返回的负载损坏或不完整需要对内容或业务逻辑进行校验。
策略HTTP 429(限流)、超出 SLA 的响应时间定义业务规则或阈值,若被违反则视为错误。

隐式错误和基于策略的错误需要额外的仪表化工作,但它们对保证良好的用户体验至关重要。

4. 饱和度

饱和度反映系统的负载程度,关注关键资源(CPU、内存、I/O、网络等)。关键要点:

  • 临界前利用率——性能可能在达到 100 % 使用率之前就开始下降(例如:内存使用率达到 75 % 已可能导致卡顿)。
  • 利用率目标——基于负载测试为每个资源设定合适的阈值。
  • 高级指标——将饱和度与容量指标(可承受的峰值、恢复时间)结合,了解系统能够承受的最大压力。

加入饱和度预测(例如使用趋势模型)可以提前预判使用高峰并主动采取措施。

结论

专注于 4 Golden Signals —— 延迟、流量、错误和饱和度 —— 可以简化监控策略,确保团队专注于用户真正关心的事项,并降低运营复杂性。持续一致地实施这些指标,您将获得宝贵的洞察,以维持系统在规模化下的健康、可靠性和性能。

主动可观测性

一个 主动 系统确保团队有足够的时间采取行动并在问题真正发生之前进行缓解。

示例: 磁盘空间使用率的警报指标允许在磁盘完全满之前采取预防措施。

4 Golden Signals 的考虑与限制

4 Golden Signals(延迟、流量、错误和饱和度)是构建坚实可靠的可观测性基础的极佳起点,因其简洁性和以用户为中心的特性。它们对绝大多数系统都有用,并且可以由不同监控经验水平的团队实施。

限制

  • 关注用户: 可能不适用于纯基础设施系统或批处理(batch)系统。
  • 需要补充: 建议将其与更具体、详细的指标结合使用,尤其是在复杂系统中。
  • 并非穷尽: 应被视为可观测性旅程的起点,而不是唯一需要监控的指标集合。

对 SRE 的重要性

4 Golden Signals 有助于在企业中巩固 Site Reliability Engineering (SRE)(站点可靠性工程)学科,因为它们直接影响可观测性和监控实践。

参考文献

电子书: Os Métodos Red, Use e os 4 Golden Signals para Observabilidade – Jeferson Fernando (LinuxTips)

0 浏览
Back to Blog

相关文章

阅读更多 »