SRE Weekly 第514期
Source: SRE Weekly
Benjamin Barton — Datadog
终于!有人真正解释他们如何测试自己的 SRE 代理。拥有测试方法论是基本前提。展示他们的工作可以帮助我们判断是否可信该工具。面对如此多的 SRE 代理,我感到非常惊讶,这类文章竟然如此罕见。
Patrick Reynolds — PlanetScale
对该 Postgres 资源管理系统如何评估查询成本并剔除资源密集型查询的深度剖析,令人受益匪浅。
Art Kondratiev — Uptime Labs
如果你曾经经历过一次事件,沟通突然中断且访问受限,本文解释了原因。作者拆解了安全事件响应与故障响应在五个根本方面的差异——以及在一种情境下有效的直觉为何在另一种情境下会适得其反。
Oreoluwa Omoike — DZone
安全性与可靠性密不可分。例如:可靠性故障会导致安全性暂时变弱和易受攻击,而安全性变更也导致了近期多起高调故障。
Ankush Madaan — DZone
对 Kubernetes 中自动扩缩实际工作原理的及时提醒。一切都在于调整你的思维模型。
David Iyanu Jonathan — DZone
并行度能提升的上限取决于工作负载中必须串行的部分。实际上,共享数据库或在每个请求上进行协同的微服务是一种分布式单体,带来额外的延迟和更难的调试。
Parveen Saini — DZone
这是一个很棒的故事,我特别喜欢其中关于传统可靠性技术(自动扩缩、断路器和速率限制)为何不足的章节。