GitHub 가용성 보고서: 2026년 5월

발행: (2026년 6월 12일 AM 06:30 GMT+9)
13 분 소요

출처: GitHub Blog

3월(주소)과 4월(업데이트)에 GitHub의 가용성 및 인프라 투자 현황을 공유했습니다. 작업이 계속 진행되고 주요 마일스톤에 다가가면서, 월간 가용성 보고서에서 보다 정기적인 업데이트를 제공하고자 합니다. 따라서 5월 사건을 살펴보기 전에, GitHub를 더 신뢰할 수 있게 만들기 위한 현재 진행 상황을 먼저 알려드립니다.

GitHub를 더 회복력 있게 만들기 위한 우리의 진전

요약: GitHub 트래픽이 급격히 증가하고 있으며, 이는 주로 AI 지원 및 에이전시 개발 워크플로우에 의해 촉진되고 있습니다. 이에 맞추어 인프라를 전환하고 있습니다. 구체적으로는 탄력적인 용량을 위해 Azure로 이전하고, 모놀리식 구조를 분리된 서비스로 쪼개며, 과거 사고를 일으켰던 공유 실패 지점을 제거하고 있습니다.

현재 상황은 다음과 같습니다. 이제 모놀리식 트래픽의 40%를 Azure에서 제공하고 있으며(2월에 8%였음), Git 트래픽은 30%, 저장소 복제는 99% 수준입니다. 4개월 만에 실질적인 용량을 두 배 이상 늘렸습니다. 동시에 주요 데이터베이스 클러스터의 격리를 완료하고 있습니다: 사용자, 인증, 권한 부여를 독립된 도메인으로 분리해 하나의 문제로 전체 플랫폼에 영향을 미치지 않도록 했습니다. 새로운 사용자 서비스는 완전히 전환되었으며, 이전보다 두 배 많은 트래픽을 훨씬 낮은 데이터베이스 비용으로 처리하고 있습니다. 무상태 인증 토큰도 점진적으로 도입돼, 트래픽 급증 시 데이터베이스에 대한 요청당 조회를 없애 압력을 크게 완화했습니다.

우리는 구조적인 변화를 통해 영구적으로 실패 모드를 제거하고 있습니다. 아직 해야 할 일이 남아 있음을 인정하지만, GitHub를 여러분이 필요로 하는 시점과 장소에서 신뢰할 수 있게 만들겠다는 약속을 지키겠습니다. 우리의 의사결정 원칙은 간단합니다: 가용성 → 용량 → 기능.

GitHub의 신뢰성과 회복력을 지속적으로 구축해 나가는 데 협조해 주셔서 감사합니다.

5월에는 GitHub 서비스 전반에 걸쳐 성능 저하를 일으킨 9건의 사고가 발생했습니다.

May 04 15:45 UTC (55분 지속)

2026년 5월 4일 15:34~16:40 UTC 사이에 github.com에서 서비스 장애가 발생해 광범위한 고객 서비스에서 지연이 증가하고 요청 실패율이 상승했습니다. 전체 고객 영향은 약 1시간 6분 지속되었습니다.

가장 크게 영향을 받은 서비스는 풀 리퀘스트였으며, 피크 기간 동안 Red 상태를 보였습니다. 이슈, 액션, 웹훅, Git 작업도 지연 및 간헐적인 오류가 발생했습니다. Codespaces, Pages, Packages, OAuth 및 GitHub Apps, Marketplace, Copilot 등 여러 종속 서비스도 공유 데이터 의존성 때문에 다양한 정도의 성능 저하를 겪었습니다. 피크 시점에 약 1.3%의 요청이 5xx 응답을 반환했으며, 사고 전체 평균은 약 0.46%였습니다.

이번 장애는 대규모, 고접근 빈도 테이블에 대해 진행 중이던 일상적인 온라인 스키마 마이그레이션이 원인입니다. 마이그레이션은 몇 시간 동안 문제 없이 진행됐지만, 주간 피크를 앞두고 트래픽이 급증하면서 마이그레이션 부하와 일반 프로덕션 트래픽이 합쳐져 데이터베이스 연결 용량을 포화시켰습니다. 이로 인해 기본 데이터베이스에서 쿼리 경쟁이 발생하고, 이를 의존하던 서비스 전반에 타임아웃이 연쇄적으로 발생했습니다.

첫 영향 징후가 포착된 후 약 3분 만에 자동 모니터링과 온콜 관찰을 통해 사고를 감지했습니다. 문제 마이그레이션을 확인하고 즉시 일시 중지했으며, 종속 서비스는 곧 복구되었습니다. 완화까지 걸린 시간은 약 33분, 완전 해결은 그 후 약 30분 뒤에 이루어졌습니다.

후속 조치로, 유사 사건의 가능성과 파급 범위를 줄이기 위해 여러 개선을 시행합니다. 대규모·고트래픽 테이블에 대한 마이그레이션은 트래픽이 적은 시간대에 더 긴밀히 맞추고, 실시간 클러스터 부하에 따라 동적으로 스로틀링하도록 합니다. 기본 데이터베이스의 지연이나 연결 활용도가 안전 임계값을 초과하면 진행 중인 마이그레이션을 자동으로 일시 중단하는 회로 차단기도 추가합니다. 또한 마이그레이션으로 인한 압력(쓰기 속도, 락 시간, 연결 포화)이 고객에 영향을 주기 전에 알림이 발생하도록 모니터링을 확장합니다. 동시에 마이그레이션 중에도 충분한 여유를 확보할 수 있도록 연결 풀 용량을 재검토하고 있습니다.

May 05 13:37 UTC (3시간 49분 지속)

May 06 07:19 UTC (2시간 25분 지속)

5월 5일과 6일에 GitHub Actions가 호스팅 러너와 관련된 두 건의 사고로 성능이 저하되었습니다. 두 사건은 연관되어 있습니다: 5일 사고 이후 수행된 복구 작업이 6일 사고를 일으킨 구성 문제를 도입했습니다.

2026년 5월 5일 13:22~17:05 UTC 동안 East US 지역의 GitHub Actions 호스팅 러너가 저하되었습니다. 표준 러너를 요청한 작업의 약 13.5%가 실패했으며, East US에 고정된 프라이빗 네트워킹을 사용하는 대형 러너는 약 16%가 실패하거나 5분 이상 지연되었습니다. Copilot 코드 리뷰 요청도 영향을 받았습니다. 이 기간 동안 약 8,500개의 코드 리뷰 요청이 타임아웃되었습니다. 영향을 받은 사용자는 풀 리퀘스트에 오류 댓글을 보았고, 리뷰를 다시 요청해 재시도할 수 있었습니다. 대부분의 러너 요청은 자동으로 다른 지역에서 처리됐지만, 여전히 East US로 라우팅된 일부 요청은 영향을 받았습니다.

원인은 East US 지역에서 호스팅 러너 VM을 스케일업하는 과정에서 발생했습니다. 이는 정기적인 작업이지만, VM이 스토리지에서 이미지를 풀링할 때 내부 속도 제한에 걸렸습니다. 이 경우 반환된 응답 코드 때문에 기존 백오프 로직이 작동하지 않았습니다. 속도 제한과 VM 생성 실패는 부하를 낮추어 회복하고 대기 중인 작업을 처리함으로써 완화되었습니다. 15:34 UTC까지 대기 중이던 작업과 실패한 작업 할당이 대부분 해결됐으며, 15:34~17:05 사이 러너 할당 영향은 0.5% 미만에 머물렀습니다.

2026년 5월 6일 06:45~09:15 UTC 동안 GitHub Actions 표준 Ubuntu 호스팅 러너가 다시 저하되었으며, 표준 러너를 요청한 작업의 약 17.1%가 실패했습니다. 이번 문제는 전날 사고 복구 작업 중 도입된 예기치 않은 구성 데이터가 일일 부하 급증 시 새로운 할당을 차단하면서 발생했습니다. 08:51 UTC에 문제 데이터를 제거해 할당이 재개되었고, 러너 풀은 다시 스케일업해 복구되었습니다.

우리는 제한이 발생했을 때 시스템의 스로틀링 동작을 개선하고, 유사 상황을 보다 신속히 완화할 수 있도록 제어 방식을 강화하며, 전체 제한 흐름을 재검토하고 있습니다. 또한 할당 데이터를 비정상적인 형태에도 견딜 수 있도록 필터 로직을 업데이트하고, 할당이 차단될 때 알림이 발생하도록 모니터링을 개선해 고객 영향이 시작되기 전에 팀이 대응할 수 있게 할 예정입니다.

May 06 11:21 UTC (38분 지속)

2026년 5월 6일 11:02~11:13 UTC 사이에 사용자는 Copilot 클라우드 에이전트 또는 원격 세션을 시작하거나 볼 수 없었습니다. 이 기간 동안 세션 API에 대한 모든 요청이 오류를 반환해 새로운 세션을 만들거나 기존 세션을 조회할 수 없었습니다. 원인은 서비스 네트워크 라우팅 구성 변경으로 인해 서비스의 인그레스 경로가 실수로 제거된 것이었습니다. 팀은 11:13 UTC에 변경을 되돌려 서비스를 복구했으며, 완전 복구를 확인하기 위해 11:59 UTC까지 사고를 열어두었습니다. 우리는 배포 검증 프로세스를 개선해 유사한 실수를 방지하기 위한 조치를 진행 중입니다.

0 조회
Back to Blog

관련 글

더 보기 »

AI 사용 보고서 업데이트

Your AI usage reports now reflect GitHub AI Credits usage in the standard report fields. To monitor AI credit usage going forward, use quantity for AI credit qu...