什么是 Chaos Engineering？

发布: 4天前 (2025年12月2日 GMT+8 16:01)

6 min read

原文: Dev.to

Source: Dev.to

Introduction

技术已经取得了长足进步，但没有任何系统能够完全免于故障。即使是最大的公司也会出现停机，那么它们如何在不可避免的错误发生时仍然保持服务可靠呢？

混沌工程是一种实践，帮助团队通过在故障真正导致停机之前发现薄弱环节，从而构建更具弹性的系统。

What Is Chaos Engineering?

混沌工程是一种方法论，IT 团队通过有意注入故障并观察系统响应来识别复杂系统中的脆弱点。

可以把它想象成一次办公室消防演练：你测试每个人是否知道消防出口位置、警报是否响起、门是否能打开。通过有意引入故障，团队能够获得长期收益，如提升弹性、改进事件响应以及验证冗余和故障切换机制。

Historical Background

Jesse Robbins (AWS) – 2000 年代初，前志愿消防员 Robbins 在亚马逊推出了 GameDay 概念，用于模拟重大故障并提升系统弹性。
Netflix – 2010 年，Netflix 发布了 Chaos Monkey，这是一款随机终止生产实例的工具，确保系统能够在不影响用户的情况下容忍故障。

这两项独立的贡献对塑造当今被广泛采用的混沌工程实践至关重要。

Relationship to SRE and DevOps

Site Reliability Engineering (SRE)

SRE 团队专注于构建可靠、可扩展且有弹性的系统。混沌工程为 SRE 提供了一种主动验证可靠性的方法，在真实事件发生前进行实验。通过受控实验，SRE 可以依据 SLI（服务水平指标）和 SLO（服务水平目标）衡量系统可靠性，确认正常运行时间和性能目标是否达标，并发现基础设施、依赖关系和故障切换机制中的隐藏弱点。

DevOps

混沌工程通过推动协作文化、持续改进和对可靠性的共同责任，补充了 DevOps。DevOps 团队常将混沌实验集成到 CI/CD 流水线中，在每次部署后运行小规模、受控的测试，以确保新代码不会破坏关键服务。他们还可能组织“游戏日”，让开发和运维人员在安全环境中有意触发故障，以练习响应并提升系统弹性。

Tools and Platforms

Azure Chaos Studio – 微软提供的托管服务，使团队能够在 Azure 环境中安全地运行混沌实验。它支持对虚拟机、Kubernetes 集群、数据库和网络组件的弹性进行测试。实验结果可通过 Azure Monitor 和 Application Insights 进行追踪。
Chaos Monkey – Netflix 的开源工具，随机终止生产实例以验证容错能力。

（还有其他开源和商业工具，但核心思想保持不变：安全地注入故障并观察结果。）

Benefits and Best Practices

Confidence Building – 展示系统能够在真实世界的故障中存活。
Weakness Identification – 揭示隐藏的 bug、错误配置以及单点故障。
Improved Incident Response – 团队在受控环境中练习处理停机。
Validation of Redundancy – 确认故障切换机制按预期工作。

Best Practices

Start Small – 从低影响实验开始，逐步扩大范围。
Define Clear Hypotheses – 在注入故障前明确预期结果。
Monitor Continuously – 使用可观测性工具捕获实验期间的系统行为。
Automate Safely – 将实验集成到 CI/CD 流水线，并配备适当的回滚机制。
Document and Share Learnings – 确保整个组织都能受益于获得的洞察。

Conclusion

混沌工程并不是为了破坏而破坏，而是为了在真实事故发生前提升系统的信心和弹性。通过有意测试故障，IT、DevOps 和 SRE 团队可以识别薄弱环节、改进事件响应并验证冗余机制。

您是否已经在 IT 实践中引入了混沌工程？

什么是 Chaos Engineering？

Introduction

What Is Chaos Engineering?

Historical Background

Relationship to SRE and DevOps

Site Reliability Engineering (SRE)

DevOps

Tools and Platforms

Benefits and Best Practices

Best Practices

Conclusion

相关文章

在Alpedrete附近修理扎胎

切换账户

在组织中使用 Excel 进行销售预测和收入预测

Strands 代理 + Agent Core AWS