给进行 Chaos Engineering 的团队的提问:如何选择实验目标?
发布: (2026年3月8日 GMT+8 23:34)
2 分钟阅读
原文: Dev.to
Source: Dev.to
Question
在做一个关于服务可靠性的副项目时,我遇到了一个我很想向实际进行混沌实验的团队请教的问题。
大多数混沌工程的讨论都集中在实验类型(延迟注入、Pod 故障、网络故障等)。
但不太明显的一点是,团队最初是如何选择实验运行位置的。在一个拥有众多微服务的系统中,可能的目标非常多。
团队如何选择实验目标?
团队通常会:
- 随时间轮流对不同服务进行实验
- 优先选择曾导致事故的服务
- 关注关键依赖路径
- 依赖平台 / SRE 的直觉
- 其他方式?
我想了解这些在真实环境中的实际做法。