GitHub 가용성 보고서: 2026년 3월
Source: GitHub Blog
위에 제공된 Source 링크 외에 번역할 텍스트를 알려주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 마크다운 형식은 그대로 유지됩니다.)
3월 사고 요약
3월에 우리는 GitHub 서비스 전반에 걸쳐 성능 저하를 일으킨 4건의 사고를 경험했습니다.
3월 03 18:59 UTC (지속 1 시간 10 분)
시간대: 18:46 – 20:09 UTC (2026년 3월 3일)
영향: 다음 서비스들의 가용성 저하:
github.com- GitHub API
- GitHub Actions
- Git 작업 (HTTP만; SSH는 영향을 받지 않음)
- GitHub Copilot
- 기타 종속 서비스
피크 시 주요 지표:
| 서비스 | 오류 / 실패 비율 |
|---|---|
github.com 요청 | ~40 % |
| GitHub API 요청 | ~43 % |
| HTTP 기반 Git | ~6 % |
| SSH 기반 Git | 0 % |
| GitHub Copilot 요청 | ~21 % |
| GitHub Actions | < 1 % |
근본 원인: 사용자 설정 캐시 메커니즘의 부하를 줄이기 위해 배포한 변경 사항에 버그가 포함되었습니다. 이 버그로 인해 모든 사용자의 캐시가 만료되고 재계산·재작성되면서 대량의 쓰기 트래픽이 발생했습니다. 복제 지연이 모든 종속 서비스에 연쇄적으로 영향을 미쳤습니다.
완화 조치: 오류가 있는 배포를 즉시 롤백했습니다.
향후 조치:
- 캐시 메커니즘에 킬스위치를 추가하고 모니터링을 강화해 사용자에게 영향을 주기 전에 문제를 감지하도록 했습니다.
- 캐시 메커니즘을 전용 호스트로 이전해 향후 문제 발생 시 해당 서비스를 격리하도록 했습니다.
3월 05 16:35 UTC (지속 2 시간 55 분)
시간대: 16:24 – 19:30 UTC (2026년 3월 5일)
영향: GitHub Actions 성능 저하.
- 워크플로 실행의 95 %가 5분 이내에 시작되지 못했으며(평균 지연 ≈ 30 분).
- 워크플로 실행의 10 %가 인프라 오류로 실패했습니다.
근본 원인: Redis 인프라 업데이트 과정에서 Redis 로드 밸런서에 잘못된 설정이 적용돼 트래픽이 잘못된 호스트로 라우팅되었으며, 이로 인해 두 차례 사고가 발생했습니다.
완화 조치:
- 잘못 구성된 로드 밸런서를 수정했습니다(작업은 17:24 UTC에 정상 재개).
- 문제를 일으킨 업데이트를 롤백하고, 추가 작업이 완료될 때까지 해당 영역의 변경을 동결했습니다.
진행 중인 작업:
- 잘못된 설정이 전파되는 것을 방지하기 위한 자동화 개선.
- 잘못된 로드 밸런서를 조기에 감지할 수 있도록 알림 체계 강화.
- 짧은 캐시 중단에도 견딜 수 있도록 Actions의 Redis 클라이언트 설정을 업데이트.
3월 19 13:44 UTC (지속 48 분)
시간대:
- 01:05 – 02:52 UTC (2026년 3월 19일)
- 00:42 – 01:58 UTC (2026년 3월 20일)
영향: Copilot Coding Agent 서비스 성능 저하 – 사용자는 새로운 Copilot Agent 세션을 시작하거나 기존 세션을 볼 수 없었습니다.
| 사고 | 평균 오류 비율 | 피크 오류 비율 |
|---|---|---|
| 3월 19 | ~53 % | ~93 % |
| 3월 20 | ~99 % | ~100 % (재시도 급증으로) |
근본 원인: 인증 문제로 인해 서비스가 백엔드 데이터스토어에 연결하지 못했습니다.
완화 조치: 영향을 받은 자격 증명을 교체해 연결을 복구했습니다. 첫 번째 사고는 01:24 UTC에 완전히 해결됐으며, 두 번째 사고는 첫 번째 복구가 완전하지 않아 발생했습니다.
향후 방지책:
- 자격 증명 수명 주기 이벤트를 자동으로 모니터링하도록 구현.
- 유사 문제에 대한 탐지 및 완화 시간을 줄이기 위해 운영 프로세스를 개선.
3월 24 16:59 UTC (지속 2 시간 52 분)
시간대: 15:57 – 19:51 UTC (2026년 3월 24일)
영향: Microsoft Teams 통합 및 Teams Copilot 통합 서비스가 저하돼 GitHub 이벤트 알림이 Microsoft Teams에 전달되지 않았습니다.
- 평균 오류 비율: 37.4 %
- 피크 오류 비율: 90.1 % (전체 통합 설치 중 약 19 %가 알림을 받지 못함)
근본 원인: 상위 종속 서비스의 장애로 인해 Teams 통합에 HTTP 500 오류와 연결 재설정이 발생했습니다.
완화 조치: (내용이 이어집니다…)
** 상위 서비스 팀과 협조했으며, 상위 인시던트가 완화된 후 19:51 UTC에 문제가 해결되었습니다.
Future work: 유사 인시던트에 대한 완화 시간을 단축하기 위해 가시성 및 런북을 업데이트합니다.
최신 정보를 받아보세요
- 실시간 업데이트와 사고 후 요약을 위해 우리 상태 페이지를 팔로우하세요.
- 엔지니어링 섹션의 GitHub 블로그에서 우리의 진행 중인 작업에 대해 더 알아보세요.
작성자
관련 게시물
(관련 게시물에 대한 링크가 여기 나열됩니다.)
GitHub에서 더 알아보기
문서
GitHub를 마스터하는 데 필요한 모든 것을 한 곳에 모았습니다.
GitHub
GitHub에서 다음을 구축하세요, 모두를 위한 장소…
시작하기
고객 사례
GitHub와 함께 구축하는 기업과 엔지니어링 팀을 만나보세요.
GitHub 팟캐스트
GitHub 팟캐스트를 청취하세요. 오픈소스 개발자 커뮤니티와 GitHub 주변의 주제, 트렌드, 스토리, 문화에 전념하는 쇼입니다.