SRE 주간 이슈 #510
Source: SRE Weekly
주요 내용
“ML 시스템은 갑자기 고장 나는 것이 아니라 점진적으로 퇴화한다. 따라서 가동 시간뿐 아니라 모델 정확도, 데이터 신선도, 공정성에 대한 오류 예산이 필요하다.”
— Varun Kumar Reddy Gajjala, DZone
“기업이 신뢰성을 신경 쓰지 않아서 실패하는 것이 아니라,
실패는 크게 울리고,
예방은 조용히 이루어지며,
예산 시스템이 소음에 반응하도록 설계되어 있기 때문이다.”
— Florian Hoeppner
“그들은 수백 개의 데이터베이스를 마이그레이션해야 했기 때문에, 검증된 자체 서비스 마이그레이션 워크플로를 구축했다.”
— Ram Srivasta Kannan, Wale Akintayo, Jay Bharadwaj, John Crimmins, Shengwei Wang, and Zhitao Zhu, Netflix
“소켓을 교묘히 다루어 우아한 재시작을 구현한 기술 설명이 마음에 든다. 이 기법은 수십 년 전부터, 예를 들어 TinyMUX 등에서 사용된 적이 있었던 것 같다…”
— Manuel Olguín Muñoz, Cloudflare
“Lorin은 아직 존재하지 않는 AI 사고 관리자가 어떻게 생겼을지에 대해 다룬다.”
— Lorin Hochstein
“기본적으로 Kubernetes는 매우 짧은 이벤트 히스토리를 유지한다. 이 글은 우리가 실제로 필요한 것이 특정 시점의 시스템 상태를 알 수 있는 능력이라고 주장한다.”
— Shamsher Khan, DZone
“그들은 구성 변경을 안전하게 롤아웃할 수 있는 플랫폼을 구축했다. 사고 대응 시에 사용할 수 있는 특수 모드가 있다는 점이 마음에 든다.”
— Cosmo W. Q, Airbnb
“이 이야기는 멋진 디버깅 사례이며, 정신 모델에 대한 강조가 인상적이다. 소프트웨어 내 다양한 경로를 시뮬레이션하는 부분이 특히 흥미롭다.”
— Michael Victor Zink, Readyset (via Antithesis)