앨리스는 급해.

발행: 16시간 전 (2026년 6월 21일 AM 05:32 GMT+9)

8 분 소요

저에 대해

제 이름은 Marc Brooker입니다. 제가 작동하는 것을 만들고 멋진 일을 하는 것을 좋아합니다. 또한 큰 규모의 것을 만들고 싶습니다. 또한 기계 가공, 용접, 요리, 스키에 대해서도 dabbling(관심갖기) 합니다.

저는 미국 워싱턴주 시애틀에 있는 아마존 웹 서비스(AWS)에서 엔지니어로 일하고 있으며, 에이전트 AI, 특히 에이전트 AI의 안전성과 정책에 대해 작업합니다.
그 이전에는 EC2, EBS, 데이터베이스, 서버리스, 그리고 서버리스 데이터베이스에 대해서도 일했습니다.

모든 의견은 제 개인적인 것입니다.

링크

무엇을 의미하나요?

앨리스를 소개합니다. 앨리스는 귀하의 웹 서비스 사용합니다. 앨리스처럼 대부분의 인간은 초와 분 단위로 시간을 측정합니다. 앨리스는 귀하의 서비스가 느리다고 말합니다. 당신은 앨리스에게 귀하의 서비스 요청이 평균 100ms에 완료된다고 말하지만, 앨리스는 그 평균 대기 시간이 1초라고 말합니다.
두 사람 모두 맞습니다.

앨리스를 소개합니다. 앨리스는 귀하의 웹 서비스 사용합니다. 앨리스처럼 대부분의 인간은 초와 분 단위로 시간을 측정합니다. 앨리스는 귀하의 서비스가 일시 중단될 때 그 지속 시간이 길고 매우 답답해진다고 말합니다. 당신은 앨리스에게 MTTR이 1분 미만이라고 말하지만, 앨리스는 평균 일시 중단 시간이 1시간이라고 말합니다.
다시 두 사람 모두 맞습니다.

무엇을 의미하나요? 그 이유는 여러분이 요청 또는 일시 중단에 대한 시간을 측정하고, 알렉스와 앨리스는 초와 분 단위로 시간을 측정한 채, 긴 요청이나 긴 일시 중단 발생 시 알렉스와 앨리스는 이를 더 무거운 시간으로 인식합니다. 하지만 당신은 그것을 하나의 사건으로만 셈합니다.

기술적으로는 여기서 발생하는 현상은 검사 역설 입니다. 알렉스와 앨리스는 귀하의 대기 시간 분포 (f(t)) 를 직접 경험하지 않으며, t-가중 평균 버전을 경험합니다.
(E[X]) (MTTR 또는 요청 시간의 평균)이라면, 알렉스와 앨리스는 (\mathbb{E}_a[X] = \frac{\mathbb{E}[X^2]}{\mathbb{E}[X]} = \mathbb{E}[X] + \frac{\mathrm{Var}(X)}{\mathbb{E}[X]}) 을 경험합니다.

대부분의 시간은 긴 시간을 기다리는데, 이것이 인간의 시간 경험과 대략 비슷합니다.

이걸 작은 시뮬레이션으로 테스트해 봅시다. 중간값(또는 복구 시간)과 99분위 백분위 대기 시간(또는 복구 시간)을 입력하고, 이를 로그-정규 분포에 맞춘 뒤 서비스 지표가 보는 것과 고객이 경험하는 것을 모두 그려 보겠습니다.

중간값: ms
p99: ms
서비스가 보는 평균(요청 시간): – ms.
고객이 경험하는 평균(대기 시간): – ms.

예를 들어, 중간값을 30으로 입력하고 (이때 밀리초는 무시하고 지금은 분 단위로 가정) median TTR이 30분인 경우(즉, 포스트모템의 절반에서는 복구 시간이 30분 이하), p99에 600을 넣고 (100건 중 1건이 10시간 소요)를 입력하면 MTTR은 한 시간 조금 넘게 됩니다. 고객이 경험하는 평균 복구 시간은 약 6시간입니다!

장기 대기 시간(그리고 긴 복구 시간)이 왜 중요한지 이해하기 위한 많은 논의가 있지만, 이는我认为 가장 널리 이해되지 않는 경우 중 하나입니다.

서비스 시간에서는 타임아웃-리트라이 기능이 실행 중인 요청이 잠금을 잡거나 다른 전용 자원을 보유하고 있지 않은 한 이 대기 시간을 일부 가릴 수 있습니다. 하지만 복구 시간은 그러한 가림이 불가능합니다.

꼬리의 무거움이 매우 중요합니다.
이것 또한 트리밍된 측정(예: 트리밍 평균)을 서비스 대기 시간 또는 복구 시간에 대한 사고의 방식으로 사용하지 않는 이유 중 하나입니다. 이들은 고객 경험을 지배하는 오른쪽 꼬리의 형태에 관한 중요한 맥락을 일부 버립니다 (다른 이유는 리틀의 법칙과 용량 사용과 관련이 있습니다, 앞서 언급한 글).

로그-정규에 대한 노트: 여기서 로그-정규를 선택한 이유는 수치적 편의를 위해였습니다. 로그-정규 분포는 lognormal(μ, σ²) 가 lognormal(μ + σ², σ²) 로 변환되는 좋은 특성을 가지고 있습니다. 또한 0 주변에서 잘 동작합니다. 로그-정규가 대기 시간 또는 복구 시간 지표에 특히 적합한 선택이라고 생각하지 않으며, 일반적으로는 비파라메트릭 방식으로 문제를 접근할 것입니다.

앨리스는 급해.

저에 대해

링크

관련 글

프로젝트 페치 2단계

Epoll와 io_uring, 리눅스

도서관에서 바느질 기계를 빌리면 민주주의가 향상된다

엘리트 급진세가 세계를 장악하려 했다는 사실이 드러났다