Os 4 Sinais Dourados da Google

Published: (February 16, 2026 at 10:58 AM EST)
5 min read
Source: Dev.to

Source: Dev.to

Introdução

Neste artigo abordaremos um dos maiores marcos para consolidar o SRE: os 4 Sinais Dourados (Golden Signals) do Google. Eles são fruto da experiência de manter e escalar um dos ambientes mais desafiadores do mundo e se tornaram padrão na indústria para mensurar a saúde de sistemas críticos.

Esses sinais surgiram da necessidade prática de monitorar vários serviços diferentes em escala global. O time de SRE do Google identificou que, independentemente da complexidade do sistema, quatro métricas fundamentais – quando monitoradas adequadamente – fornecem uma visão clara do status do sistema do ponto de vista do usuário.

Resumo: se você só pode monitorar algumas métricas, concentre‑se nas quatro voltadas ao usuário. Assim, o time verifica aquilo que realmente impacta a experiência do cliente, reduzindo complexidade e desperdício de recursos.

Golden Signals diagram

Os 4 Sinais Dourados (Golden Signals)

1. Latência

A latência mede o tempo que o sistema leva para atender a uma requisição – a métrica mais perceptível pelos usuários. Para uma monitoração eficaz, é preciso observar:

  • Latência de requisições bem‑sucedidas vs. falhas – falhas podem ser retornadas quase que imediatamente (ex.: HTTP 500), enquanto requisições bem‑sucedidas podem sofrer atrasos.
  • Médias vs. percentis – usar apenas a média pode mascarar problemas. Percentis de 95 % ou 99 % dão uma visão mais realista da experiência da maioria dos usuários.
  • Tempo de resposta de erros – os usuários ficam mais incomodados com uma mensagem de erro demorada do que com um erro imediato.

2. Tráfego

Tráfego indica a quantidade de demanda que o sistema está atendendo. A métrica varia conforme o tipo de serviço:

  • Web – requisições HTTP por segundo, divididas por tipo (GET, POST, etc.).
  • Outros – mensagens por segundo, jobs processados, etc.

Monitorar o tráfego ajuda a detectar:

  • Ataques DDoS.
  • Instabilidades upstream que impedem o uso do serviço.

Dica: escolha a métrica que melhor representa a carga que os usuários colocam sobre o sistema.

3. Erros

Erros são, geralmente, uma das métricas mais importantes. Contudo, a definição de “falha” pode variar:

Tipo de erroExemploComo medir
ExplícitoHTTP 502, 503, 504Contagem direta de códigos de status.
ImplícitoHTTP 200 com payload corrompido ou incompletoNecessita de validação de conteúdo ou de lógica de negócio.
PolíticaHTTP 429 (rate‑limit), SLA de tempo de resposta excedidoDefinir limites e regras de negócio que, se violados, são considerados erros.

Erros implícitos e baseados em políticas exigem instrumentação adicional, mas são cruciais para garantir uma boa experiência ao usuário.

4. Saturação

Saturação indica o quão carregado o sistema está, analisando recursos críticos (CPU, memória, I/O, rede, etc.). Pontos importantes:

  • Utilização pré‑crítica – a performance pode degradar antes de chegar a 100 % de uso (ex.: 75 % de memória pode já causar lentidão).
  • Alvos de utilização – defina limites adequados para cada recurso com base em testes de carga.
  • Métricas de nível superior – combine saturação com indicadores de capacidade (picos suportáveis, tempo de recuperação) para entender até onde o sistema pode ser pressionado.

Adicionar previsões de saturação (por exemplo, usando modelos de tendência) permite antecipar picos de utilização e agir proativamente.

Conclusão

Focar nos 4 Golden Signals – Latência, Tráfego, Erros e Saturação – simplifica a estratégia de monitoramento, garante que a equipe esteja concentrada no que realmente importa para o usuário e reduz a complexidade operacional. Ao implementar essas métricas de forma consistente, você obtém insumos valiosos para manter a saúde, a confiabilidade e a performance dos seus sistemas em escala.

Observabilidade Proativa

Um sistema proativo garante que as equipes tenham tempo suficiente para agir e mitigar problemas antes que eles realmente ocorram.

Exemplo: métricas de alerta de consumo de espaço em disco permitem a tomada de medidas preventivas antes que os discos fiquem completamente cheios.

Considerações e Limitações dos 4 Golden Signals

Os 4 Golden Signals (latência, tráfego, erros e saturação) são um excelente ponto de partida para construir uma base sólida e confiável de observabilidade, graças à sua simplicidade e foco no usuário. Eles são úteis para a grande maioria dos sistemas e podem ser implementados por equipes com diferentes níveis de experiência em monitoramento.

Limitações

  • Foco no usuário: pode não ser adequado para sistemas puramente de infraestrutura ou de processamento em lote (batch).
  • Necessidade de complementação: recomenda‑se combiná‑los com métricas mais específicas e detalhadas, especialmente em sistemas complexos.
  • Não são exaustivos: devem ser vistos como o início da jornada de observabilidade, não como o conjunto único de métricas a ser monitorado.

Importância para SRE

Os 4 Golden Signals ajudam a consolidar a disciplina de Site Reliability Engineering (SRE) nas empresas, pois impactam diretamente nas práticas de observabilidade e monitoramento.

Referências

E‑book: Os Métodos Red, Use e os 4 Golden Signals para Observabilidade – Jeferson Fernando (LinuxTips)

0 views
Back to Blog

Related posts

Read more »