Os 4 Sinais Dourados da Google
Source: Dev.to
Introdução
Neste artigo abordaremos um dos maiores marcos para consolidar o SRE: os 4 Sinais Dourados (Golden Signals) do Google. Eles são fruto da experiência de manter e escalar um dos ambientes mais desafiadores do mundo e se tornaram padrão na indústria para mensurar a saúde de sistemas críticos.
Esses sinais surgiram da necessidade prática de monitorar vários serviços diferentes em escala global. O time de SRE do Google identificou que, independentemente da complexidade do sistema, quatro métricas fundamentais – quando monitoradas adequadamente – fornecem uma visão clara do status do sistema do ponto de vista do usuário.
Resumo: se você só pode monitorar algumas métricas, concentre‑se nas quatro voltadas ao usuário. Assim, o time verifica aquilo que realmente impacta a experiência do cliente, reduzindo complexidade e desperdício de recursos.

Os 4 Sinais Dourados (Golden Signals)
1. Latência
A latência mede o tempo que o sistema leva para atender a uma requisição – a métrica mais perceptível pelos usuários. Para uma monitoração eficaz, é preciso observar:
- Latência de requisições bem‑sucedidas vs. falhas – falhas podem ser retornadas quase que imediatamente (ex.: HTTP 500), enquanto requisições bem‑sucedidas podem sofrer atrasos.
- Médias vs. percentis – usar apenas a média pode mascarar problemas. Percentis de 95 % ou 99 % dão uma visão mais realista da experiência da maioria dos usuários.
- Tempo de resposta de erros – os usuários ficam mais incomodados com uma mensagem de erro demorada do que com um erro imediato.
2. Tráfego
Tráfego indica a quantidade de demanda que o sistema está atendendo. A métrica varia conforme o tipo de serviço:
- Web – requisições HTTP por segundo, divididas por tipo (GET, POST, etc.).
- Outros – mensagens por segundo, jobs processados, etc.
Monitorar o tráfego ajuda a detectar:
- Ataques DDoS.
- Instabilidades upstream que impedem o uso do serviço.
Dica: escolha a métrica que melhor representa a carga que os usuários colocam sobre o sistema.
3. Erros
Erros são, geralmente, uma das métricas mais importantes. Contudo, a definição de “falha” pode variar:
| Tipo de erro | Exemplo | Como medir |
|---|---|---|
| Explícito | HTTP 502, 503, 504 | Contagem direta de códigos de status. |
| Implícito | HTTP 200 com payload corrompido ou incompleto | Necessita de validação de conteúdo ou de lógica de negócio. |
| Política | HTTP 429 (rate‑limit), SLA de tempo de resposta excedido | Definir limites e regras de negócio que, se violados, são considerados erros. |
Erros implícitos e baseados em políticas exigem instrumentação adicional, mas são cruciais para garantir uma boa experiência ao usuário.
4. Saturação
Saturação indica o quão carregado o sistema está, analisando recursos críticos (CPU, memória, I/O, rede, etc.). Pontos importantes:
- Utilização pré‑crítica – a performance pode degradar antes de chegar a 100 % de uso (ex.: 75 % de memória pode já causar lentidão).
- Alvos de utilização – defina limites adequados para cada recurso com base em testes de carga.
- Métricas de nível superior – combine saturação com indicadores de capacidade (picos suportáveis, tempo de recuperação) para entender até onde o sistema pode ser pressionado.
Adicionar previsões de saturação (por exemplo, usando modelos de tendência) permite antecipar picos de utilização e agir proativamente.
Conclusão
Focar nos 4 Golden Signals – Latência, Tráfego, Erros e Saturação – simplifica a estratégia de monitoramento, garante que a equipe esteja concentrada no que realmente importa para o usuário e reduz a complexidade operacional. Ao implementar essas métricas de forma consistente, você obtém insumos valiosos para manter a saúde, a confiabilidade e a performance dos seus sistemas em escala.
Observabilidade Proativa
Um sistema proativo garante que as equipes tenham tempo suficiente para agir e mitigar problemas antes que eles realmente ocorram.
Exemplo: métricas de alerta de consumo de espaço em disco permitem a tomada de medidas preventivas antes que os discos fiquem completamente cheios.
Considerações e Limitações dos 4 Golden Signals
Os 4 Golden Signals (latência, tráfego, erros e saturação) são um excelente ponto de partida para construir uma base sólida e confiável de observabilidade, graças à sua simplicidade e foco no usuário. Eles são úteis para a grande maioria dos sistemas e podem ser implementados por equipes com diferentes níveis de experiência em monitoramento.
Limitações
- Foco no usuário: pode não ser adequado para sistemas puramente de infraestrutura ou de processamento em lote (batch).
- Necessidade de complementação: recomenda‑se combiná‑los com métricas mais específicas e detalhadas, especialmente em sistemas complexos.
- Não são exaustivos: devem ser vistos como o início da jornada de observabilidade, não como o conjunto único de métricas a ser monitorado.
Importância para SRE
Os 4 Golden Signals ajudam a consolidar a disciplina de Site Reliability Engineering (SRE) nas empresas, pois impactam diretamente nas práticas de observabilidade e monitoramento.
Referências
E‑book: Os Métodos Red, Use e os 4 Golden Signals para Observabilidade – Jeferson Fernando (LinuxTips)