SRE 주간 이슈 #510

발행: (2026년 3월 30일 AM 11:43 GMT+9)
3 분 소요
원문: SRE Weekly

Source: SRE Weekly

주요 내용

“ML 시스템은 갑자기 고장 나는 것이 아니라 점진적으로 퇴화한다. 따라서 가동 시간뿐 아니라 모델 정확도, 데이터 신선도, 공정성에 대한 오류 예산이 필요하다.”
Varun Kumar Reddy Gajjala, DZone

“기업이 신뢰성을 신경 쓰지 않아서 실패하는 것이 아니라,
실패는 크게 울리고,
예방은 조용히 이루어지며,
예산 시스템이 소음에 반응하도록 설계되어 있기 때문이다.”
Florian Hoeppner

“그들은 수백 개의 데이터베이스를 마이그레이션해야 했기 때문에, 검증된 자체 서비스 마이그레이션 워크플로를 구축했다.”
Ram Srivasta Kannan, Wale Akintayo, Jay Bharadwaj, John Crimmins, Shengwei Wang, and Zhitao Zhu, Netflix

“소켓을 교묘히 다루어 우아한 재시작을 구현한 기술 설명이 마음에 든다. 이 기법은 수십 년 전부터, 예를 들어 TinyMUX 등에서 사용된 적이 있었던 것 같다…”
Manuel Olguín Muñoz, Cloudflare

“Lorin은 아직 존재하지 않는 AI 사고 관리자가 어떻게 생겼을지에 대해 다룬다.”
Lorin Hochstein

“기본적으로 Kubernetes는 매우 짧은 이벤트 히스토리를 유지한다. 이 글은 우리가 실제로 필요한 것이 특정 시점의 시스템 상태를 알 수 있는 능력이라고 주장한다.”
Shamsher Khan, DZone

“그들은 구성 변경을 안전하게 롤아웃할 수 있는 플랫폼을 구축했다. 사고 대응 시에 사용할 수 있는 특수 모드가 있다는 점이 마음에 든다.”
Cosmo W. Q, Airbnb

“이 이야기는 멋진 디버깅 사례이며, 정신 모델에 대한 강조가 인상적이다. 소프트웨어 내 다양한 경로를 시뮬레이션하는 부분이 특히 흥미롭다.”
Michael Victor Zink, Readyset (via Antithesis)

0 조회
Back to Blog

관련 글

더 보기 »

OpenTelemetry, Kotlin 멀티플랫폼 API 및 SDK 제공

OpenTelemetry는 네이티브 Kotlin Multiplatform API와 SDK를 통해 관측 가능성 범위를 확장합니다. Embrace가 기여한 이번 업데이트는 벤더에 종속되지 않는 텔레메트리를 가능하게 합니다.