Chaos Engineering을 하는 팀에게 질문: 실험 대상을 어떻게 선택하나요?
발행: (2026년 3월 9일 AM 12:34 GMT+9)
2 분 소요
원문: Dev.to
Source: Dev.to
Question
사이드 프로젝트로 서비스 신뢰성을 다루다 보니, 실제로 카오스 실험을 진행하는 사람들에게 궁금한 점이 생겼습니다.
대부분의 카오스 엔지니어링 논의는 실험 유형(지연 주입, 파드 장애, 네트워크 오류 등)에 초점을 맞춥니다.
하지만 덜 눈에 띄는 부분은 팀이 처음에 실험 대상을 어떻게 선택하느냐 입니다. 마이크로서비스가 많이 있는 시스템에서는 가능한 대상이 매우 많습니다.
팀은 어떻게 실험 대상을 선택하나요?
팀에서는 보통 다음 중 어떤 방식을 사용하나요?
- 시간이 지남에 따라 서비스들을 순환시킴
- 사고를 일으킨 서비스에 우선순위를 둠
- 핵심 의존 경로에 집중함
- 플랫폼/SRE 직관에 의존함
- 그 외 다른 방법?
실제 환경에서 어떻게 이루어지는지 궁금합니다.