CloudWatch 조사: AI 기반 트러블슈팅 보조 도구
Source: Dev.to
대시보드 사이를 급히 전환하고, 로그를 파헤치며, 모든 것을 재시작해야 할지 고민하던 새벽 3시 사건들을 기억하시나요?
우리는 모두 비업무 시간, 주말, 혹은 한밤중에 프로덕션 문제를 해결하기 위해 일해왔습니다 – 에너지를 소모하는 작업이죠.
만약 이 GenAI 시대에 24 × 7 작동하며 혼란 속에서 우리를 안내해줄 AI 어시스턴스가 있다면 어떨까요?
CloudWatch Investigations를 소개합니다. 이는 AWS 환경에서 인시던트를 처리하는 방식을 바꾸는 생성 AI 기반 기능입니다.
작동 방식
무언가가 고장났을 때, 여러분이 CloudWatch 메트릭, 로그, 배포 이력, CloudTrail, X‑Ray, 그리고 상태 대시보드 사이를 왔다갔다 하는 대신, CloudWatch Investigations가 첫 번째 탐정 작업을 대신 수행합니다.
시스템의 텔레메트리를 스캔하고 빠르게 다음을 도출하기 위해 생성 AI를 사용합니다:
- 의심스러운 메트릭
- 관련 로그
- 최근 배포 또는 구성 변경
- 가능한 근본 원인 가설 (특히 여러 리소스가 관련된 경우)
이 모든 내용은 시각적으로 제공되어, 추측 대신 볼 수 있게 연결 관계를 보여줍니다. 마치 24 / 7 시스템 아키텍처를 바라보고 있는 추가 팀원이 있는 것과 같습니다.
Source:
시작하기
- 콘솔 열기 – AWS 콘솔에서 CloudWatch → AI Operations (왼쪽 패널) 로 이동합니다.
- 초기 설정 – 계정을 처음 구성하는 경우 조사 그룹을 설정하라는 메시지가 표시됩니다.
조사 그룹 만들기
| 설정 | 설명 |
|---|---|
| 보존 일수 | 조사가 보관되는 기간입니다. 참고: 보존 기간은 설정 후 변경할 수 없습니다. |
| 암호화 사용자 지정 | 고객이 관리하는 KMS 키를 사용하여 암호화합니다. 키에 필요한 권한이 부여되어 있는지 확인하세요. |
| IAM 역할 | CloudWatch Investigations는 필요한 읽기 전용 권한을 가진 역할을 생성합니다. 사용자 지정 역할을 만들 수도 있습니다. 기본적으로 다음을 연결합니다: • AIOpsAssistantPolicy • AmazonRDSPerformanceInsightsFullAccess • AIOpsAssistantIncidentReportPolicy |
그룹을 만든 후 선택적 향상된 구성 옵션이 표시됩니다.

향상된 통합 옵션
- 애플리케이션 태그 – CloudWatch가 조사를 좁히는 데 도움이 되도록 애플리케이션 관련 태그를 포함합니다.
- CloudTrail 접근 – 서비스가 관련 변경 이벤트를 검색할 수 있도록 합니다.
- 선택적 데이터 소스 – X‑Ray, Application Signals 및 EKS 접근 항목.
Demo
샘플 애플리케이션
이번 데모에서는 간단한 Event‑Booking 앱을 사용합니다:

- 사용자 흐름 – 사용자는 세부 정보를 입력하고 사용 가능한 슬롯을 선택하여 예약을 합니다.
- 관리자 흐름 – 관리자는 요청을 승인하거나 거부합니다.


장애 도입
-
Lambda 역할 수정 – Lambda 실행 역할에서 KMS 권한을 제거합니다.

-
시뮬레이션된 장애 – 사용자는 슬롯을 보려 할 때 오류가 발생하고, 관리자는 어떤 예약도 확인할 수 없습니다.

-
초기 조사 – 앱의 진입점은 CloudFront입니다. CloudFront를 확인하면 5xx 오류가 급증한 것을 볼 수 있습니다.

(CloudWatch Investigations를 사용해 조사를 계속 진행하면 자동으로 누락된 KMS 권한을 찾아내고, 영향을 받은 Lambda를 지적하며, 복구 단계에 대한 제안을 제공합니다.)
요약
- CloudWatch Investigations은 생성 AI를 활용해 원시 텔레메트리를 실행 가능한 인사이트로 전환합니다.
- 첫 번째 탐지 단계를 자동화함으로써 평균 탐지 시간(MTTD) 및 평균 해결 시간(MTTR)을 감소시킵니다.
- 이 기능은 기존 AWS 서비스(CloudWatch, CloudTrail, X‑Ray 등)와 통합되며, 태그와 선택적 데이터 소스로 세밀하게 조정할 수 있습니다.
다음에 새벽 3시 사고에 끌려갈 때 한 번 사용해 보세요 – AI가 무거운 작업을 처리하도록 하고, 여러분은 근본 원인 해결에 집중하세요.
조사 시작
-
CloudWatch 메트릭 5xx 아래에서 서비스가 5xx 오류를 반환하는 이유를 조사할 수 있습니다.

뷰는 자동으로 가장 최근 타임스탬프를 선택하지만, 원한다면 시작 시간을 조정할 수 있습니다.

-
조사가 시작되면 완료까지 10‑15 분이 걸립니다. 진행 상황을 확인하거나 그 시간을 사용해 사용자/비즈니스와 소통하거나 다른 병행 작업을 시작할 수 있습니다.
-
조사가 완료되면 무엇이 잘못됐고 왜 5xx 오류가 발생했는지를 명확히 보여줍니다 🥳🥳🥳
Root Cause Summary 아래에서 문제는 IAM 구성 문제로 식별되었습니다.
Analysis – 이 실패 패턴은 서비스 성능 저하가 아니라 IAM 구성 문제를 나타내며, 특정 KMS 권한 오류와 “NEW” 발생 패턴이 최근 권한 변경으로 인해 eventap 스테이징 서비스 구성 요소에 영향을 미친 것을 증명합니다.
