SRE 주간 호 #514
Source: SRE Weekly
Benjamin Barton — Datadog
마침! 누군가 실제로 SRE 에이전트를 어떻게 테스트하는지 설명하고 있다. 테스트 방법론을 갖는 것은 기본이다. 그들의 작업을 보여주는 것은 우리가 그 도구를 신뢰할 수 있는지 판단하는 데 도움이 된다. 이렇게 많은 SRE 에이전트가 떠돌아다니는 상황에서 이런 종류의 글이 드물다는 것이 꽤 놀랍다.
Patrick Reynolds — PlanetScale
이 Postgres 리소스 관리 시스템이 쿼리 비용을 평가하여 리소스를 많이 소모하는 쿼리를 식별하는 방법에 대한 통찰력 있는 깊이 있는 탐구.
Art Kondratiev — Uptime Labs
만약 사고 중에 커뮤니케이션이 갑자기 사라지고 접근이 제한된 경험이 있다면, 이 글이 그 이유를 설명한다. 저자는 보안 사고 대응이 장애 대응과 다르게 작동하는 다섯 가지 근본적인 방식을 분석하고, 한쪽에서 효과적이게 만드는 본능이 다른 쪽에서는 오히려 방해가 되는 이유를 제시한다.
Oreoluwa Omoike — DZone
보안과 신뢰성은 불가분하게 얽혀 있다. 예를 들어, 신뢰성 실패는 보안을 일시적으로 약하고 취약하게 만들고, 보안 변경으로 인해 최근 여러 고프로파일 장애가 발생했다.
Ankush Madaan — DZone
쿠버네티스에서 자동 스케일링이 실제로 어떻게 작동하는지에 대한 시의적절한 상기 사항이다. 이는 모두 여러분의 사고 모델을 조정하는 것과 관련이 있다.
David Iyanu Jonathan — DZone
병렬 처리에는 한계가 있으며, 이는 워크로드 중 반드시 순차적으로 실행되어야 하는 부분에 달려 있다. 실제로 데이터베이스를 공유하거나 모든 요청을 조정하는 마이크로서비스는 추가 지연과 훨씬 더 어려운 디버깅을 초래하는 분산 모놀리식이다.
Parveen Saini — DZone
이것은 훌륭한 이야기이며, 전통적인 신뢰성 기법(자동 스케일링, 회로 차단기, 속도 제한)이 충분하지 않은 이유에 대한 섹션이 특히 마음에 들었다.