하나의 DNS 레코드가 인터넷을 망가뜨렸을 때
Source: Dev.to
2025년 10월 20일 동부 표준시 기준 새벽 3시, 오하이오 교외에 있는 Ring 도어벨이 꺼졌다. 동시에 맨해튼의 Robinhood 트레이더는 Bitcoin 포지션이 거래 중에 멈추는 것을 목격했다. 런던에서는 납세자들이 5천만 명이 이용하는 HMRC의 Government Gateway가 사라진 것을 발견했다. 전 세계 거래소, 이사회 회의실, 데이터 센터 전역에 걸쳐 하나의 질문이 떠올랐다: 하나의 DNS 레코드가 어떻게 이렇게 많은 인터넷을 다운시켰을까?
Source: …
1. 무슨 일이 있었나요?
| 시간 (PDT) | 이벤트 |
|---|---|
| 오후 11:48 (10월 19일) | AWS 내부 DNS 관리에서 두 개의 자동화된 프로세스가 동일한 레코드를 동시에 업데이트하려고 시도했습니다. |
| 결과 | 레이스 컨디션이 발생하여 dynamodb.us-east-1.amazonaws.com에 빈 DNS 엔트리가 생성되었습니다 – 마치 누군가 전화를 걸고 있는 중에 전화번호부에서 번호를 지워버린 디지털 버전과 같습니다. |
| 오전 12:38 | 엔지니어들이 DNS 문제를 확인했습니다 (시작 후 약 50분). |
| 오전 2:25 | DynamoDB 레코드가 복구되었습니다. |
| 오후 ≈ 2:00 | 약 15시간의 장애 후 모든 종속 서비스가 완전히 복구되었습니다. |
1.1 기술적 연쇄 반응
- DynamoDB 장애 → 연결을 시도하는 모든 애플리케이션이 “잘못된 번호”를 받음.
- EC2 Droplet Workflow Manager (DWFM) 가 서버 임대를 유지하지 못해 정상 서버가 비정상으로 표시됨.
- 네트워크 연결이 없는 새 인스턴스가 시작됨.
- 로드 밸런서가 상태 검사를 실패함.
- CloudWatch가 메트릭 로그를 중단함.
- Lambda 함수가 멈춤.
- 보안 토큰 검증이 중단됨.
손상된 상태가 수천 개의 상호 연결된 서비스에 전파되어 DNS 문제 자체를 해결하는 것보다 훨씬 긴 복구 기간을 초래했습니다.
2. 비즈니스 영향
- 가정용 브랜드가 서비스 중단: Snapchat, Reddit, Robinhood, Coinbase, Amazon 소매, United Airlines (체크‑인), Ring 초인종, 다수의 은행 서비스.
- 지리적 범위: 60개국 이상에서 장애 보고, > 1,700만 건의 개별 보고.
2.1 직접 재정 손실
| 출처 | 추정치 |
|---|---|
| Parametrix (클라우드‑보험 모니터) | 5억 – 6억5천만 달러의 직접적인 미국 손실 |
| Gartner (2014) | $5,600 / 분 다운타임 (기업 평균) |
| Ponemon Institute (최신) | $9,000 / 분 이상, 대규모 조직 기준 |
“특정 조직의 실제 비용은 산업 분야, 조직 규모, 비즈니스 모델에 크게 좌우됩니다.” – 저자 주석
2.2 간접 비용
- 신뢰 감소 – PwC 연구: **32 %**의 고객이 단 한 번의 나쁜 경험 후 브랜드를 떠남.
- 보험 격차 – 대부분의 사이버 정책은 8시간 이상의 다운타임 후에만 발동됩니다. CyberCube는 잠재 청구액을 3,800만 – 5억 8,100만 달러로 추정했지만, 많은 기업이 보장 범위를 훨씬 초과하는 노출을 발견했습니다.
- 혁신 정체 – 엔지니어링 팀이 로드맵에서 화재 진압으로 전환되어 기술 부채가 누적됨.
- 평판 위험 – 언제나 켜져 있는 경제에서 다운타임은 경쟁력 약화가 되며, 복원력은 이제 시장 차별화 요소가 됩니다.
3. 정부 및 공공 부문 파장
3.1 영국
- HMRC의 Government Gateway(5천만 사용자) 서비스가 중단되었습니다.
- 주요 은행들(로이드스, 스코틀랜드 은행, 할리팩스)에서 동시 장애가 발생했습니다.
- 데임 메그 힐리어, 영국 재무위원회 위원장이 의회에 질문했습니다:
“버지니아에 있는 데이터 센터 하나가 영국 세무 서비스를 마비시킬 수 있는데, 왜 우리 IT 인프라의 핵심 부분들이 해외에 호스팅되고 있는 걸까요?”
- 영국 정부 부처 전반에 걸친 활성 AWS 계약 41건의 총액은 11억 1천만 파운드입니다 (source: Tussell).
- HMRC 계약만 해도 3억 5천만 파운드(2023 년 12 월 – 2026 년 11 월)까지 됩니다.
“HMRC부터 주요 은행에 이르기까지 왜 이렇게 많은 핵심 영국 기관들이 미국 동부 해안에 있는 데이터 센터에 의존하고 있는 걸까요?” – Mark Boost, CEO, Civo
4. 왜 US‑EAST‑1이 중심인가
- 가장 오래되고 가장 바쁜 AWS 리전 – 전 세계 AWS 트래픽의 **35 %–40 %**를 처리한다고 추정됩니다 (업계 분석가).
- 버지니아 북부에 위치하며, **“Data Center Alley”**라는 별명을 가지고 있어 전 세계에서 가장 높은 데이터 센터 집중도를 자랑합니다.
4.1 US‑EAST‑1 과거 장애 사례
| 날짜 | 원인 | 영향 |
|---|---|---|
| February 2017 | S3 유지보수 중 인적 오류 | 전 세계 S3 지연 및 하위 서비스 중단 |
| November 2020 | 전원 차단 및 네트워크 스위치 고장 | 해당 리전에서 EC2, RDS, Lambda 일부 손실 |
| December 2022 | Route 53에 영향을 미친 DNS 구성 오류 | 다수 서비스에 대한 DNS 해석 실패 |
| July 2024 | 네트워크 혼잡 및 스로틀링 | CloudFront와 API Gateway의 지연 증가 |
| October 2025 | 내부 DNS의 레이스 컨디션 → 빈 DynamoDB 레코드 | 15시간 전 세계 장애로 수백만 사용자가 영향을 받음 |
패턴: 대규모 AWS 사고의 대부분은 US‑EAST‑1에서 발생하며, 이 리전에 크게 의존하는 모든 아키텍처에 단일 장애 지점 위험이 있음을 강조합니다.
5. Takeaways & Recommendations
- 지역 의존성 다변화 – 핵심 서비스를 여러 AWS 리전(또는 멀티‑클라우드)으로 배포합니다.
- DNS 복원력 구현 – 보조 DNS 제공자를 사용하고, 상태 확인이 가능한 CNAME 페일오버와 DNS 업데이트 자동 검증을 적용합니다.
- 우아한 장애 허용 설계 – 서킷‑브레이커 패턴, 대체 데이터 스토어, 그리고 읽기 복제본 전략을 활용해 단일 서비스 장애 시에도 핵심 기능을 유지합니다.
- 클라우드 보험 보장 감사 – 정책이 현실적인 다운타임 임계값에서 발동하고, 간접 손실(평판, 규제 벌금)까지 포함하도록 확인합니다.
- 정기적인 카오스 엔지니어링 훈련 수행 – DNS 장애, 리전 전체 장애, 종속 서비스 손실을 시뮬레이션하여 복구 프로세스를 검증합니다.
TL;DR
AWS 내부 DNS 시스템의 레이스 컨디션으로 dynamodb.us-east-1.amazonaws.com 레코드가 삭제되어 전 세계적으로 15시간에 걸친 연쇄 장애가 발생했으며, 직접 손실이 5억 ~ 6억 5천만 달러에 달하고 US‑EAST‑1 리전의 단일 장애 지점 위험이 크게 드러났습니다. 이번 사고는 멀티‑리전 아키텍처, DNS 강화, 그리고 강력한 클라우드 보험 전략을 통해 상업 및 공공 부문 서비스를 보호해야 할 긴급성을 강조합니다.
디버깅 과정에서 인터넷의 상당 부분이 중단되어 Netflix, Slack, 그리고 Amazon 자체 소매 운영과 같은 서비스가 영향을 받았습니다.
8년 동안 발생한 5대 대규모 장애, 모두 같은 지역에서
그럼에도 기업들은 그곳에 워크로드를 집중합니다. 왜일까요?
- 레거시 결정 – 대안이 존재하기 전에 기존 아키텍처가 구축되었습니다.
- 동부 해안 사용자에 대한 낮은 지연 시간 – 주요 인구 중심지와의 근접성.
- 기능 가용성 – 일부 서비스는 특정 지역에서만 제공됩니다.
- “멀티 AZ 배포”에 대한 잘못된 안심
문제: 멀티‑AZ가 지역 장애를 방어하지 못함
같은 리전 내의 가용 영역(AZ)은 기본 인프라를 공유합니다.
그 인프라가 실패하면—DNS, DynamoDB, Kinesis—멀티‑AZ 아키텍처가 함께 실패합니다.
반론: 집중이 회복력을 가능하게 하는 이유
- 규모와 투자 – AWS는 매년 수십억 달러를 인프라에 투자하고 수천 명의 보안 엔지니어를 고용하며, 대부분의 기업이 내부적으로 감당할 수 없는 수준으로 운영하고 있습니다.
- 가동 시간 기록 – 화제가 되는 장애에도 불구하고 AWS는 **5년 누적 평균 가동 시간 99.95 %**를 유지하고 있으며, 이는 온‑프레미스 데이터 센터를 운영하는 대부분의 조직보다 높은 수치입니다.
파편화의 비용
- 멀티‑클라우드 아키텍처는 운영이 복잡하고 유지 비용이 높습니다.
- 공급자 간 데이터 동기화는 일관성 문제를 야기합니다.
- 서로 다른 API는 각기 다른 전문 지식을 요구합니다.
- 세 개의 클라우드 공급자를 관리하는 운영 오버헤드가 많은 조직에선 회복력 이점을 초과할 수 있습니다.
이러한 주장은 타당합니다. 질문은 집중이 이점을 가지고 있다는 점이 아니라, 현재 그 이점보다 시스템적 위험이 더 큰가와 시장 메커니즘만으로 그 위험을 해소할 수 있는가 입니다.
장애 빈도 증가에 대한 가능한 원인: AWS 엔지니어링 인력 변화
Corey Quinn은 전 AWS 직원이자 현재 The Duckbill Group의 산업 분석가로, The Register에 이 문제에 대해 광범위하게 글을 썼습니다.
- 2022 – 2024년 사이에 AWS는 27,000명 이상의 정리해고를 경험했습니다.
- 내부 문서에 따르면 69‑81 % “아쉬운 이직”—회사가 유지하고 싶었지만 떠난 직원들—을 보여줍니다.
“매우 똑똑한 사람들을 많이 고용해서 DNS가 어떻게 동작하는지 깊이 있는 기술 수준으로 설명하게 할 수는 있지만, 고용할 수 없는 한 가지는 DNS가 불안정해질 때 구석에 있는 겉보기에 무관한 시스템을 확인하라는 것을 기억하는 사람입니다. 그 시스템은 과거 몇 차례 장애에 기여한 바가 있기 때문이죠.” – Corey Quinn
주의사항
- 전직 직원들은 정보가 불완전하거나 개인적인 불만을 가질 수 있습니다.
- AWS는 엔지니어링 인원수나 전문성 분포를 공개하지 않습니다.
- 인력 변화와 장애 패턴 사이의 상관관계가 인과관계를 증명하는 것은 아닙니다.
Political and Regulatory Response to the October 2025 Outage
| 행위자 | 진술 / 행동 | 함의 |
|---|---|---|
| 상원 의원 엘리자베스 워런 (미국) | “한 기업이 전체 인터넷을 끊을 수 있다면, 그 기업은 너무 크다. 끝이다. 이제 빅테크를 분할할 때다.” (X) | 집중 위험과 국가 안보에 대한 양당 간 우려가 커지고 있음을 강조한다. |
| Competition and Markets Authority (CMA) (영국) | 다년간 조사 결과를 마쳤으며, AWS와 마이크로소프트가 각각 영국 클라우드 지출의 **30‑40 %**를 차지하고 있음을 발견하고, Digital Markets, Competition and Consumers Act 2024에 따라 **“전략적 시장 지위”**를 권고했다. | 규제당국이 법적 구속력이 있는 행동 요건을 부과할 수 있게 하며, (연간 공급자 전환율 ≤1 %) 잠금 효과를 인정한다. |
회복탄력성은 무한한 예산이 아니라 전략적 사고가 필요합니다
1. 단계적 접근
모든 시스템이 다중 지역 활성‑활성 아키텍처를 필요로 하는 것은 아닙니다.
| 워크로드 | 추천 토폴로지 |
|---|---|
| 수익 창출 거래 시스템 | 활성‑활성 다중 지역 |
| 내부 대시보드 | 활성‑수동 또는 단일 지역 |
2. 가시성을 위한 설계
- 보이지 않는 것을 고칠 수 없습니다.
- 고객이 문제를 인식하기 전에 문제를 감지하기 위해 다중 지역 모니터링, 복제 지연 추적, 합성 트랜잭션을 구현하십시오.
3. 끊임없이 테스트하기
- 월간 게임 데이.
- 카오스 엔지니어링 실험.
- 예고 없는 장애 조치 테스트.
- 발견된 모든 이슈를 문서화하고, 수정한 뒤 다시 테스트하십시오.
4. 다중 지역 역량을 점진적으로 구축하기
- 핵심 시스템에 대해 활성‑수동 장애 조치부터 시작하십시오.
- 명확한 **복구 시점 목표(RPO)**와 **복구 시간 목표(RTO)**를 정의하십시오.
- 비즈니스 영향이 정당화될 때만 활성‑활성으로 전환하십시오.
Source: …
숫자 뒤의 현실
AWS의 99.95 % 5년 가동 시간은 인상적이지만—2025년 10월 장애만으로도 15시간 만에 그 SLA 예산 수년치를 소진했다는 사실을 알게 되면 달라집니다.
- 15시간 장애는 막대한 재정 손실, 고객 신뢰 감소, 그리고 운영 차질을 초래하며 이는 “청구서”로 해결할 수 없습니다.
“클라우드는 은유가 아닙니다. 대서양 아래에 깔린 광섬유 케이블입니다. 버지니아 북부의 냉각 시스템입니다. 토요일 밤 11시 48분에 같은 DNS 레코드를 업데이트하려는 두 자동화 프로세스가 동시에 경쟁하고 있는 상황입니다.”
핵심 요점
- 건물은 무너질 수 있습니다. 그 안에 구축한 시스템도 마찬가지입니다.
- 다음 장애가 언제 발생할지가 아니라 그때에 대비했는가가 문제입니다.
참고 문헌
- AWS Official Post‑Event Summary (October 2025)
- Parametrix Economic Estimate
- UK CMA Cloud Investigation – Final Decision (July 2025)
https://gov.uk/cma-cases/cloud-services-market-investigation - UK Government AWS Contracts (Tussell data) – The Register 2025년 10월 29일에 인용
- Gartner Downtime Cost Study (2014)
https://blogs.gartner.com - PwC Customer Experience Report
https://pwc.com - TeleGeography Analysis (70 % claim disputed)
https://cardinalnews.org
면책 조항:
이 기사에 표현된 의견은 필자의 개인적인 견해이며, 고용주의 입장을 대변하지 않습니다. 모든 AWS 장애 데이터는 공식 AWS 사후 이벤트 요약, Parametrix 및 CyberCube의 산업 보고서, CMA 조사 결과, 그리고 검증된 뉴스 보도를 통해 수집되었습니다. 경제적 영향 추정치는 공개된 산업 방법론을 기반으로 하며, 분산된 경제 효과를 측정하는 복잡성을 고려할 때 근사치로 이해되어야 합니다.