GitHub Actions 오늘도 중단
출처: Hacker News
사고 요약
2026년 5월 12일 UTC 13:41 ~ 17:43 사이에 여러 GitHub 서비스에서 처리 지연이 발생했습니다. Code Scanning 서비스의 경우, 체크 실행의 53 %가 15 분 이상 걸렸습니다. 알림은 평균 22분이 소요되었으며, Slack 연동 웹훅은 평균 20분이 걸렸습니다. 지연은 내부 데이터베이스 마이그레이션으로 인한 복제 지연 때문에 발생했으며, 이로 인해 작업 대기열에 높은 비율로 쌓인 작업을 처리할 워커 용량이 감소했습니다.
워커를 확장해 영향을 완화했으며, 완화 조치 후 모든 서비스가 정상으로 복구되었습니다. GitHub은 향후 유사 사고를 방지하기 위해 사용량이 많은 공유 큐에 전용 워커 풀을 구축할 예정입니다.
업데이트 타임라인
- 5월 12일 13:41 UTC – 사고 시작.
- 5월 12일 15:13 UTC – CodeQL 성능 저하 보고 조사 시작.
- 5월 12일 15:42 UTC – CodeQL 액션 지연 발생; 액션이 대기 상태에 머무르거나 타임아웃으로 실패할 수 있음.
- 5월 12일 15:44 UTC – CodeQL 액션 워크플로우 조사 지속; 알림, 웹훅, Slack 연동에서도 지연이 관찰됨.
- 5월 12일 16:18 UTC – 웹훅 성능 저하 발생; 조사 진행 중.
- 5월 12일 16:28 UTC – 대부분의 지연이 큐 서비스와 연관된 것으로 파악; 워커 확장 중; 일부 서비스에서 회복 조짐 확인.
- 5월 12일 16:29 UTC – 웹훅 정상 작동.
- 5월 12일 16:59 UTC – 웹훅 완전 복구; 다른 서비스 작업 지속.
- 5월 12일 17:43 UTC – CodeQL 완전 복구; 모든 서비스가 완전히 복구됨.
해결 – 워커를 확장한 후 모든 서비스가 정상 처리 시간으로 돌아왔습니다.
시스템을 지속적으로 모니터링하며 필요 시 업데이트를 제공하겠습니다.