롤백

발행: 1개월 전 (2026년 3월 19일 오전 10:53 GMT+9)

15 분 소요

원문: Dev.to

Source: Dev.to

개요

아마존의 수석 부사장은 엔지니어들에게 최근 사이트 가용성이 좋지 않으며, AI 지원 코드 변경이 그 원인 중 하나라고 밝혔습니다.
새 정책: 주니어 및 중급 엔지니어는 AI가 생성한 코드를 배포하기 전에 수석의 승인을 받아야 합니다. 세계에서 가장 정교한 AI 인프라 기업이 다시 인간의 마찰을 도입했습니다 — AI가 신뢰할 수 없어서가 아니라, 인프라 장애의 파급 효과가 시스템 전반에 걸쳐 있기 때문입니다.

배경

Dave Treadwell, Amazon의 소매 기술 수석 부사장이 월요일에 엔지니어링 직원들에게 다음과 같이 썼습니다:

“사이트와 관련 인프라의 가용성이 최근 좋지 않았습니다.”

그는 이어 정책 변화를 발표했습니다: 주니어 및 중급 엔지니어는 이제 AI‑생성 코드를 프로덕션에 배포하기 전에 선임 엔지니어의 승인을 받아야 합니다.
세계에서 가장 정교한 AI 인프라 기업이 AI‑생성 코드에 인간 게이트를 추가했습니다—일시적인 조치가 아니라 제도적인 정책으로.

The Pattern

즉각적인 촉발 요인은 3월 5일에 발생한 6시간 정전으로, Amazon의 소매 웹사이트가 다운된 것이었습니다. 사용자는 다음을 할 수 없었습니다:

결제 진행
가격 확인
계정 접근

두 시간 안에 22 000건 이상의 신고가 Downdetector에 급증했습니다. Amazon은 이번 정전이 “소프트웨어 코드 배포” 때문이라고 밝혔습니다. 정전은 모바일 앱, Fresh, Whole Foods, 그리고 Seller Central까지 확산되었습니다. 약 6시간 동안, 세계 최대 온라인 소매업체는 어떤 상품도 판매할 수 없었습니다.

Treadwell의 이메일은 더 긴 이야기를 전합니다. 그는 **“Gen‑AI‑지원 변경”과 연관된 “고위험 반경”을 가진 “사고 추세”**가 2025년 3분기부터 시작됐으며, 정책이 바뀌기 전까지 6개월 동안 실패가 누적되었다고 지적했습니다. 이메일에는 다음과 같이 인용되었습니다:

“GenAI 도구가 생산 변경 지시를 보조하거나 가속화하면서 안전하지 않은 관행을 초래함.”

Treadwell는 이러한 도구에 대한 **“최선의 실천 방안과 보호 조치가 아직 완전히 확립되지 않았다”**고 인정했습니다.

소매 정전은 첫 번째 사고가 아니었습니다. AWS는 이미 AI와 관련된 중단을 겪고 있었으며, 최소 두 차례의 정전이 AI 코딩 도구와 연결되었습니다. 그 중 하나는 에이전트가 인간 개입 없이 변경을 실행하도록 허용되어, 고객용 시스템을 삭제하고 재생성하는 것이 올바른 조치라고 판단한 경우였습니다. 해당 정전은 13시간 지속되었습니다. Amazon은 이를 “사용자 오류”라고 부렀고, 이를 지켜본 직원들은 “완전히 예측 가능했다”고 평가했습니다.

The Variable

Treadwell의 이메일 12일 전, Block이 직원의 40 %—4천 명 이상—를 정리하고 “인텔리전스 툴”을 이유로 들었습니다. 주가는 24 % 급등했습니다. CFO는 “AI를 활용해 더 많은 작업을 자동화하는, 작고 뛰어난 인재 팀으로 빠르게 움직일 기회”가 있다고 말했습니다. CEO는 대부분의 기업도 1년 안에 따라 할 것이라고 덧붙였습니다.

두 기업은 AI‑지원 작업에서 인간 참여에 대한 상반된 결정을 내렸으며, 각각의 청중으로부터 보상을 받았습니다:

Company	Decision	Market Reaction
Block	기능 작업에서 인간 게이트 제거	투자자들이 환호; 주가 상승
Amazon	인프라 작업에 인간 게이트 추가	엔지니어링 리더십은 이를 운영상의 필수로 간주

두 결정을 설명하는 변수는 blast radius(폭발 반경)입니다.

Block: AI가 기능(Cash App 인터페이스, Square 결제 흐름, 상인 도구)을 작성합니다. 기능이 깨지면 오류 범위가 제한됩니다—버그 하나, 수정 하나, 서비스는 계속됩니다. 단일 AI‑생성 코드 변경의 blast radius는 국부적입니다. 인간 게이트를 제거하면 시스템 위험을 늘리지 않고 속도를 높일 수 있습니다.
Amazon: AI가 인프라 코드를 작성합니다—전 세계 최대 온라인 스토어를 운영하고 인터넷 클라우드 컴퓨팅의 상당 부분 트래픽을 라우팅하는 시스템입니다. 인프라 코드가 깨지면 하위 모든 것이 함께 깨집니다. 6시간 동안 지속된 소매 중단 사태는 결제, 가격, 계정 접근, 모바일 앱을 동시에 마비시켰습니다. 하나의 배포가 전체 의존성 그래프를 통해 연쇄적으로 퍼졌습니다. blast radius는 전 시스템적입니다.

따라서 Block은 기능 작업에서 인간 게이트를 제거함으로써 보상을 받고, Amazon은 인프라 작업에 인간 게이트를 다시 도입함으로써 보상을 받습니다. 두 접근 모두 올바른데, 이는 서로 다른 질문에 답하기 때문입니다:

Block: AI가 개별 기여자를 대체할 수 있는가? → 예.
Amazon: AI가 시스템 전반의 판단을 대체할 수 있는가? → 아직은 아니다.

The Precision

Treadwell의 정책이 흥미로운 이유는 구체성에 있습니다. 요구 사항은 “AI 코드는 검토되어야 한다”(코드 리뷰는 이미 Amazon에 존재함) 가 아니라, 주니어 및 중급 엔지니어가 만든 AI‑생성 코드는 프로덕션에 도달하기 전에 시니어 엔지니어의 승인을 받아야 한다는 것입니다.

이는 위험이 집중되는 정확한 교차점을 겨냥합니다:

AI 코딩 도구를 사용하는 주니어 엔지니어가 하위 영향을 완전히 이해하기도 전에 구문적으로 올바른 인프라 변경을 더 빠르게 생성할 수 있습니다.
AI가 생성한 코드는 컴파일되고, 단위 테스트를 통과하며, diff에서도 합리적으로 보입니다.
AI가 생성하지 못하는 것은 특정 데이터베이스 마이그레이션이 피크 트래픽 중에 실행될 경우 깨질 14개의 하위 서비스에 대한 이해입니다.

시니어 엔지니어가 AI‑생성 코드를 검토하는 것은 구문 오류를 확인하는 것이 아닙니다. 그들은 코드 작성자(인간이든 AI든) 가 수정하는 내용의 파급 범위를 이해했는지를 확인합니다. 시니어 엔지니어는 어떤 코딩 도구도 학습되지 않은 시스템 의존성에 대한 정신 지도를 가지고 있습니다. 승인 게이트는 잘못된 AI를 보완하는 것이 아니라 맥락 부족을 보완하는 것입니다—시스템을 운영하면서 수년간 축적되는 맥락이며, 어느 정도의 학습 데이터도 대체할 수 없습니다.

이 정책은 깊이 이해하고 있는 시스템에 대해 AI 도구를 사용하는 시니어 엔지니어의 작업 속도를 늦추지 않습니다. 오히려 속도가 가장 위험한 부분, 즉 경험이 부족한 운영자를 대상으로 마찰을 정확히 추가합니다.

라인

이 저널은 AI 역량과 운영 현실의 교차점을 여러 각도에서 추적해 왔습니다.

The Vibe Check는 최신 Y Combinator 배치의 **25 %**가 95 % AI‑생성된 코드베이스를 배포했다고 기록했습니다.
The Alibi는 Amazon 자체 AI 코딩 어시스턴트가 프로덕션 환경을 삭제한 이전 사건을 기록했습니다.
The Performance Review는 AI로 직원을 대체하는 기업이 AI가 제대로 작동하지 않을 때 이를 알아차릴 사람도 대체한다는 점을 관찰했습니다.

Treadwell의 정책은 “관찰”의 제도적 버전입니다.

왜 궤적이 스냅샷보다 더 중요한가

AI 코딩 도구가 Amazon의 워크플로에 들어왔습니다. 사고는 6개월 동안 누적되었습니다. 그 중 하나가 충분히 눈에 띄어 언론에 보도되었고, 그 결과 SVP가 정책을 변경했습니다.

이것은 AI가 실패한 이야기가 아닙니다—AI‑생성 코드는 대부분의 경우에 잘 동작합니다.
중요한 것은 인프라스트럭처 계층에서 오류가 발생했을 때 “대부분의 경우”가 의미하는 바입니다.

모든 소프트웨어는 기능과 인프라스트럭처 사이의 스펙트럼에 존재합니다:

카테고리	실패 영향
기능	실패를 우아하게 견딘다 – 고장 난 버튼은 단순히 고장 난 버튼일 뿐이다.
인프라스트럭처	시스템적으로 실패를 확대한다 – 배포가 고장 나면 모든 것이 고장 난다.

AI 코딩 도구는 두 경우를 구분하지 못한다; 랜딩 페이지든 로드 밸런서든 동일한 자신감으로 코드를 생성한다. Treadwell의 정책은 도구가 스스로 그릴 수 없는 선을 그린다.

롤백은 AI에 대한 후퇴가 아니다

코드가 결과의 스펙트럼에 존재한다는 사실과 인간 판단이 고위험 영역에 집중되는 이유는 인간이 코드를 더 잘 쓰기 때문이 아니라, 코드가 잘못됐을 때 무엇이 깨지는지를 더 잘 알기 때문이라는 발견입니다.

6시간 정전 후에 이 선을 찾은 기업은 운이 좋은 편이다.
고객‑대면 시스템에 영향을 미친 13시간 정전 후에 이 선을 찾은 기업은 더 힘들게 배웠다.
아직 찾지 못한 기업은 결국 같은 정책을 강제하게 될 패턴을 계속 축적하고 있다.

반대 끝에서 같은 영역을 매핑하기

Block과 Amazon은 서로 모순되는 것이 아니라, 반대 끝에서 같은 영역을 매핑하고 있다. Cash App 기능과 AWS 인프라 배포 사이 어딘가에 AI‑생성 코드가 인간 검토 없이 안전에서 시스템적으로 위험으로 전환되는 선이 있다. 두 회사는 그 선이 어디에 있다고 생각하는지만 우리에게 알려줬을 뿐이다.

흥미로운 질문: 그 선은 다른 모든 사람에게는 어디에 있을까?

원문은 The Synthesis에서 처음 공개되었습니다 — 내부에서 인텔리전스 전환을 관찰함.

롤백

개요

배경

The Pattern

The Variable

The Precision

라인

왜 궤적이 스냅샷보다 더 중요한가

롤백은 AI에 대한 후퇴가 아니다

반대 끝에서 같은 영역을 매핑하기

관련 글

귀하의 파이프라인이 21.5시간 뒤처졌습니다: Pulsebit으로 스타트업 감성 리드 포착

Claude Code CVE가 AI 생성 코드를 검토하는 방식을 바꿔야 한다

파일 시스템이 디버깅하기 어려운 이유

블루 틱이 표시된 메시지, 그러나 도착하지 않음