Google의 4가지 골든 시그널
Source: Dev.to
위의 소스 링크 아래에 번역하고 싶은 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다.
소개
이 글에서는 SRE를 확립하는 데 있어 가장 큰 이정표 중 하나인 Google의 4가지 골든 시그널 (Golden Signals) 에 대해 다룹니다. 이 시그널은 세계에서 가장 도전적인 환경 중 하나를 유지하고 확장한 경험에서 나온 것으로, 중요한 시스템의 상태를 측정하기 위한 업계 표준이 되었습니다.
이 시그널은 전 세계 규모로 다양한 서비스를 모니터링해야 하는 실질적인 필요성에서 등장했습니다. Google SRE 팀은 시스템의 복잡성과 관계없이 네 가지 핵심 지표—적절히 모니터링될 경우—사용자 관점에서 시스템 상태를 명확히 파악할 수 있다는 것을 확인했습니다.
요약: 모니터링할 수 있는 지표가 몇 개뿐이라면, 사용자에게 직접적인 영향을 주는 네 가지에 집중하세요. 이렇게 하면 팀이 실제로 고객 경험에 영향을 미치는 부분을 검증하게 되어 복잡성을 줄이고 자원 낭비를 최소화할 수 있습니다.

4가지 골든 시그널 (Golden Signals)
1. 지연
지연은 시스템이 요청을 처리하는 데 걸리는 시간을 측정합니다 – 사용자에게 가장 눈에 띄는 메트릭입니다. 효과적인 모니터링을 위해서는 다음을 살펴봐야 합니다:
- 성공적인 요청과 실패한 요청의 지연 – 실패는 거의 즉시 반환될 수 있습니다(예: HTTP 500), 반면 성공적인 요청은 지연이 발생할 수 있습니다.
- 평균 vs. 퍼센타일 – 평균만 사용하면 문제를 가릴 수 있습니다. 95 % 또는 99 % 퍼센타일은 대부분 사용자 경험을 보다 현실적으로 보여줍니다.
- 오류 응답 시간 – 사용자는 즉시 발생하는 오류보다 오래 걸리는 오류 메시지에 더 불편함을 느낍니다.
2. 트래픽
트래픽은 시스템이 처리하고 있는 수요의 양을 나타냅니다. 메트릭은 서비스 유형에 따라 달라집니다:
- 웹 – 초당 HTTP 요청 수, 종류별(GET, POST 등)로 구분.
- 기타 – 초당 메시지 수, 처리된 작업(job) 수 등.
트래픽을 모니터링하면 다음을 감지할 수 있습니다:
- DDoS 공격.
- 서비스 사용을 방해하는 업스트림 불안정.
팁: 사용자가 시스템에 가하는 부하를 가장 잘 나타내는 메트릭을 선택하세요.
3. 오류
오류는 일반적으로 가장 중요한 메트릭 중 하나입니다. 하지만 “실패”의 정의는 상황에 따라 달라질 수 있습니다:
| 오류 유형 | 예시 | 측정 방법 |
|---|---|---|
| 명시적 | HTTP 502, 503, 504 | 상태 코드 직접 카운트. |
| 암시적 | 페이로드가 손상되었거나 불완전한 HTTP 200 | 콘텐츠 검증 또는 비즈니스 로직 검증 필요. |
| 정책 기반 | HTTP 429 (rate‑limit), SLA 응답 시간 초과 | 정책 위반 시 오류로 간주하도록 비즈니스 규칙 정의. |
암시적 오류와 정책 기반 오류는 추가 계측이 필요하지만, 사용자 경험을 보장하는 데 필수적입니다.
4. 포화
포화는 시스템이 얼마나 과부하 상태인지, 핵심 자원(CPU, 메모리, I/O, 네트워크 등)을 분석하여 나타냅니다. 중요한 포인트:
- 임계 전 사용률 – 성능은 100 % 사용에 도달하기 전에 저하될 수 있습니다(예: 메모리 75 % 사용만으로도 지연 발생).
- 사용률 목표 – 부하 테스트 결과를 기반으로 각 자원에 적절한 한계값을 설정합니다.
- 상위 레벨 메트릭 – 포화와 용량 지표(지원 가능한 피크, 복구 시간 등)를 결합해 시스템이 어느 정도까지 압박을 견딜 수 있는지 파악합니다.
트렌드 모델 등을 활용해 포화 예측을 추가하면 사용량 급증을 사전에 감지하고 선제적으로 대응할 수 있습니다.
결론
4 Golden Signals – 지연, 트래픽, 오류 및 포화 – 에 집중하면 모니터링 전략이 단순해지고, 팀이 사용자에게 진정으로 중요한 것에 집중하도록 보장하며 운영 복잡성을 줄입니다. 이러한 메트릭을 일관되게 구현하면 시스템의 건강, 신뢰성 및 성능을 규모에 맞게 유지하는 데 필요한 귀중한 인사이트를 얻을 수 있습니다.
프로액티브 관찰성
시스템 프로액티브는 팀이 충분한 시간을 가지고 행동하고 문제가 실제로 발생하기 전에 완화할 수 있도록 보장합니다.
예시: 디스크 공간 사용량 경고 메트릭은 디스크가 완전히 가득 차기 전에 예방 조치를 취할 수 있게 합니다.
4 Golden Signals의 고려 사항 및 제한 사항
4 Golden Signals(지연, 트래픽, 오류, 포화)는 단순함과 사용자 중심 덕분에 견고하고 신뢰할 수 있는 관측성 기반을 구축하기 위한 훌륭한 출발점입니다. 대부분의 시스템에 유용하며, 모니터링 경험 수준이 다양한 팀에서도 구현할 수 있습니다.
제한 사항
- 사용자 중심: 순수 인프라스트럭처 시스템이나 배치 처리 시스템에는 적합하지 않을 수 있습니다.
- 보완 필요성: 특히 복잡한 시스템에서는 보다 구체적이고 상세한 메트릭과 결합하는 것이 권장됩니다.
- 포괄적이지 않음: 관측성 여정의 시작점으로 보아야 하며, 모니터링해야 할 유일한 메트릭 집합으로 간주해서는 안 됩니다.
SRE에 대한 중요성
4 Golden Signals는 Site Reliability Engineering (SRE) 분야를 기업 내에서 정착시키는 데 도움을 주며, 관측성 및 모니터링 실천에 직접적인 영향을 미칩니다.
참고문헌
전자책: Os Métodos Red, Use e os 4 Golden Signals para Observabilidade – Jeferson Fernando (LinuxTips)