GitHub 가용성 보고서: 2025년 12월
Source: GitHub Blog
2025년 12월 사고 요약
12월에 우리는 GitHub 서비스 전반에 걸쳐 성능 저하를 일으킨 5건의 사고를 경험했습니다.
12월 08 19:51 UTC (지속시간 1 시간 15 분)
영향 – 2025년 11 26 02:24 UTC부터 2025년 12 08 20:26 UTC까지, 엔터프라이즈 관리자는 Enterprise AI Controls 페이지에서 에이전트‑세션 활동을 볼 수 없었습니다.
- 사용자는 AI Controls 보기에서 에이전트‑세션 활동을 나열할 수 없었습니다.
- 감사 로그에서 활동을 확인하거나 개별 에이전트‑세션 로그로 이동하거나 AI 에이전트를 관리하는 것은 영향을 받지 않았습니다.
근본 원인 – 11 25에 배포된 변경 사항에 도입된 잘못된 구성으로 인해 AI Controls 페이지에 데이터를 공급하는 내부 Kafka 토픽으로 데이터가 게시되지 않았습니다.
완화 조치 – 12 08에 구성 문제를 수정했습니다.
후속 조치 –
- 데이터 파이프라인 종속성에 대한 모니터링을 개선합니다.
- 구성 문제를 프로덕션에 도달하기 전에 포착할 수 있도록 사전 배포 검증을 강화합니다.
12월 15 17:43 UTC (지속시간 39 분)
영향 – 15:15 UTC부터 18:22 UTC까지, Copilot Code Review 가 성능 저하를 겪었습니다: 46.97 % 의 풀‑리퀘스트 리뷰 요청이 실패했으며, 다음 오류가 표시되었습니다.
“Copilot encountered an error and was unable to review this pull request. You can try again by re‑requesting a review.”
나머지 요청은 정상적으로 완료되었습니다.
근본 원인 – 내부 모델 기반 종속성의 응답 시간이 증가하면서 요청 타임아웃 및 리뷰‑처리 파이프라인에 백프레셔가 발생했고, 이로 인해 큐가 증가하고 리뷰가 실패했습니다.
완화 조치 –
- 레이턴시를 낮추기 위해 일시적으로 수정 제안을 우회했습니다.
- 작업자 용량을 늘려 백로그를 소진했습니다.
- 엔드‑투‑엔드 레이턴시를 감소시키는 모델‑구성 변경을 배포했습니다.
큐 깊이와 성공률은 정상으로 회복되었으며, 피크 트래픽 동안에도 안정적으로 유지되었습니다.
후속 조치 –
- 기본 작업자 용량을 확대했습니다.
- 작업자 활용도와 큐 상태를 측정하는 계측을 추가했습니다.
- 자동 로드‑셰딩, 폴백 동작, 알림을 개선하여 탐지 및 완화 시간을 단축합니다.
12월 18 16:33 UTC (지속시간 1 시간 8 분)
영향 – 08:15 UTC부터 17:11 UTC까지, 일부 GitHub Actions 러너에서 간헐적인 API 호출 타임아웃이 발생해 러너 설정 및 워크플로 실행이 실패했습니다.
- West US 지역의 대형 및 표준 호스티드 러너에서 전체 Actions 작업의 약 0.28 % (전체 중 1.5 %) 정도가 영향을 받았습니다.
근본 원인 – West US 러너와 GitHub의 한 엣지 사이트 간에 네트워크 패킷 손실이 발생했습니다.
완화 조치 – 17:11 UTC까지 영향을 받은 엣지 사이트로의 트래픽을 모두 우회시켜 타임아웃을 해소했습니다.
후속 조치 – 클라우드 간 연결 문제를 더 빠르게 감지하고, 완화 경로를 신속히 적용하기 위한 작업을 진행 중입니다.
12월 18 17:36 UTC (지속시간 1 시간 33 분)
영향 – 16:25 UTC부터 19:09 UTC까지, Copilot policies 를 지원하는 서비스가 성능 저하를 겪었습니다. 사용자, 조직, 엔터프라이즈 모두 Copilot 정책을 업데이트할 수 없었습니다. 다른 GitHub 또는 Copilot 서비스는 영향을 받지 않았습니다.
근본 원인 – 데이터베이스 마이그레이션 과정에서 스키마 드리프트가 발생했습니다.
완화 조치 – 스키마를 동기화하여 정상 운영을 복구했습니다.
후속 조치 – 스키마 드리프트에 대한 방어를 강화하고, 향후 완화 시간을 단축하기 위해 배포 파이프라인 개선을 조사하고 있습니다.
12월 22 22:31 UTC (지속시간 1 시간 46 분)
영향 – 22:01 UTC부터 22:32 UTC까지, github.com 에 대한 인증되지 않은 요청이 성능 저하를 겪어 페이지 로드 및 API 호출이 느리거나 타임아웃되었습니다. Actions 작업에서 발생한 인증되지 않은 요청(예: 릴리스 다운로드)도 영향을 받았습니다. 인증된 트래픽은 영향을 받지 않았습니다.
근본 원인 – 주로 검색 엔드포인트로 향한 트래픽 급증이 있었습니다.
완화 조치 – 트래픽 급증을 식별하고 완화했으며, 자동화된 트래픽 관리가 전체 서비스를 복구했습니다.
low‑up 작업 –
- 고부하 엔드포인트에 대한 제한기를 개선했습니다.
- 대규모 트래픽 변화를 사전에 감지하고, 핵심 요청 흐름의 복원력을 강화하며, 완화까지 걸리는 시간을 줄이기 위한 작업을 지속하고 있습니다.
최신 소식 받아보기
- 실시간 업데이트 및 사고 후 요약을 위해 우리의 status page를 팔로우하세요.
- GitHub Blog의 엔지니어링 섹션에서 우리의 작업에 대해 자세히 알아보세요.
작성자
관련 게시물
- GitHub Actions에 대해 이야기해봅시다 – GitHub Actions의 핵심 아키텍처를 재구축하고 성능, 워크플로우 유연성, 신뢰성 및 일상적인 개발자 경험을 개선하기 위해 오래 요청된 업그레이드를 제공한 내용.
GitHub에서 더 탐색하기
| GitHub를 마스터하는 데 필요한 모든 것을 한 곳에 모았습니다. [Docs로 이동] | |
| GitHub에서 다음을 구축하세요. 어디서든 누구나 무엇이든 만들 수 있는 공간입니다. [구축 시작] | |
| GitHub 위에서 구축하는 기업과 엔지니어링 팀을 만나보세요. |