네 가지 골든 시그널의 종말: 비결정론적 인프라를 위한 텔레메트리 설계
출처: DevOps.com
복잡한 소프트웨어 시스템에서 운영 상태에 대한 우리의 전통적인 정의는 언제나 이분법적으로 편안했습니다. 10년 넘게 사이트 신뢰성 엔지니어링(SRE) 팀은 업계 표준인 ‘네 가지 황금 신호’—지연, 트래픽, 오류, 포화—에 의존해 왔으며, 이를 플랫폼 안정성의 절대 진리로 여겼습니다. API 응답 시간이 100 ms 이하로 머물고, 네트워크 처리량이 안정적이며, CPU 코어가 포화되지 않고, HTTP 500 오류율이 0%라면 우리는 안심하고 잠을 잡니다. Grafana 대시보드를 확인하고, 초록색 초원이 펼쳐진 것을 보며 우리 플랫폼이 비즈니스에 완벽한 가치를 제공하고 있다고 가정합니다.
그때 프로덕션 AI가 등장했습니다.
조직이 결정론적인 코드 기반 마이크로서비스에서 비결정론적인 LLM 기반 애플리케이션으로 급속히 전환하면서, 이 기본 텔레메트리 프레임워크는 조용한 위기에 직면했습니다. AI‑구동 생태계에서는 시스템이 구조적으로는 완벽하지만 기능적으로는 실패할 수 있습니다. API 게이트웨이가 기록적인 속도로 깔끔한 HTTP 200 OK를 반환하더라도, 그 페이로드는 환상적인 재무 예측, 인젝션 공격, 혹은 규정을 위반하는 유해 출력일 수 있습니다. 인프라는 완전히 건강하지만 시스템은 부서진 것입니다. 규모에 맞는 신뢰할 수 있는 AI를 구축하려면, 플랫폼 및 SRE 엔지니어는 하드웨어와 네트워크 상태를 넘어 비결정론적 세계에 맞는 텔레메트리를 진화시켜야 합니다.
AI 사각지대 해독: 초록 대시보드 역설
AI 세계에서의 전통적인 텔레메트리 문제는 결정론(determinism) 개념으로 귀결됩니다. 기존 소프트웨어 아키텍처는 절대적인 규칙에 따라 동작합니다. 입력 A와 조건 B가 주어지면 애플리케이션은 언제나 출력 C를 생성합니다. 그렇지 않을 경우 별도의 예외가 발생하고, 5xx 오류 코드가 전송되며, 담당 엔지니어에게 페이지가 전송됩니다.
생성 AI, 검색‑보강 생성(RAG) 파이프라인, 자율 에이전트 프레임워크는 이 패러다임을 완전히 깨뜨립니다. 이러한 시스템은 본질적으로 확률적입니다. 모델은 고차원 의미 공간과 복잡한 벡터 검색에 의존하기 때문에 동일한 입력이라도 연속적인 요청마다 전혀 다른 출력을 낼 수 있습니다.
이것이 제가 “초록 대시보드 역설”이라고 부르는 현상입니다. 예를 들어, 자동화된 고객 문의를 처리하는 고거래량 금융 기업 플랫폼을 생각해 보세요. 전통적인 SRE 대시보드는 다음과 같이 완벽한 상태를 보여줍니다.
- 지연: 최소
- 트래픽: 표준 임계값 내
- 오류: 패킷 손실·서버 예외 0
- 포화: GPU·메모리 사용률 최적화
하지만 실제로는 시스템이 맥락적으로 실패하고 있습니다. 벡터 데이터베이스의 임베딩 공간이 약간 변동하면서 검색 메커니즘이 오래된 데이터를 가져오게 되었고, 그 결과 모델이 수천 명 사용자에게 잘못된 대출 금리를 환상적으로 생성했습니다. 전송 계층은 데이터를 문제 없이 전달했기 때문에 기존 인프라 모니터링은 이 실패를 전혀 감지하지 못합니다. 우리는 파이프가 새는지 여부는 확인했지만, 물이 독성으로 변했는지는 전혀 모르는 상황입니다.
고전 SRE 모델이 놓치는 지점
LLM 및 추론 클러스터와 상호작용할 때 고전적인 Google SRE 핸드북이 무너지는 지점을 자세히 살펴보면 다음과 같습니다.
- 지연의 오해: 전통적인 웹 애플리케이션에서는 높은 지연이 사용자 경험 저하를 의미하며, 보통 인스턴스 확장이나 DB 쿼리 최적화로 해결합니다. LLM 애플리케이션에서는 전체 응답 지연이 프롬프트 크기·토큰 길이에 따라 크게 변동합니다. 긴 응답이 반드시 비정상적인 것은 아니며, 반대로 초고속 응답은 안전 필터가 즉시 쿼리를 차단했음을 의미할 수 있어, 낮은 지연이 높은 사용자 거부율을 나타낼 수도 있습니다.
- 포화의 착시: 전통적인 포화 지표는 CPU, 메모리, 디스크 I/O를 측정합니다. AI 인프라에서는 워크로드가 GPU에 존재합니다. GPU 메모리(VRAM)는 추론 엔진(vLLM, Hugging Face TGI 등)이 성능 최적화를 위해 공격적으로 사전 할당하기 때문에, 전통적인 모니터링 에이전트가 VRAM을 보면 95% 포화가 지속적으로 보고됩니다. 이는 알림 트리거로서 무용지물이 됩니다.
- 오류 코드의 소멸: 고전적인 오류 신호는 HTTP 상태 코드·gRPC 상태 추적과 같은 프로토콜 수준 텔레메트리에 크게 의존합니다. AI 파이프라인에서는 애플리케이션 실패가 의미론적·정렬 레이어에서 발생합니다. 예를 들어 프롬프트 인젝션 공격으로 인해 LLM이 사내 시스템 명령을 포함한 응답을 생성하면 이는 치명적인 보안 실패이지만, 로드밸런서 입장에서는 단순히 성공적인 텍스트 전송에 불과합니다.
신뢰성 운영화: 새로운 진화형 텔레메트리
‘네 가지 황금 신호’를 완전히 버릴 필요는 없습니다. 오히려 이를 기본 인프라 레이어로 간주하고, 그 위에 새로운 지능형 텔레메트리 계층을 구축해야 합니다. 신뢰할 수 있고 회복력 있는 AI 시스템을 설계하려면 텔레메트리 파이프라인이 의미론적, 구조적, 정렬 신호를 네이티브하게 수집해야 합니다.
비결정론적 소프트웨어용 현대 관측 스택을 설계할 때 팀은 다음 네 가지 대체 ‘AI 아키텍처 황금 신호’ 를 도입해야 합니다.
| 고전 SRE 지표 | AI 텔레메트리 대안 | 실제 운영에서 안전하게 측정하는 항목 |
|---|---|---|
| 지연 | 첫 토큰 도착 시간(TTFT) | 요청 제출 시점부터 최초 스트리밍 토큰이 도착할 때까지의 소요 시간을 측정합니다. 전체 전달 시간에서 모델 추론 지연을 분리합니다. |
| 트래픽 | 토큰 속도·처리량 | 입력(프롬프트) 토큰 대비 출력(완성) 토큰 양을 추적합니다. 공급자 비용 예측, 메모리 버퍼 관리, 레이트‑리밋 방지에 필수적입니다. |
| 오류 | 가드레일 개입 비율 | Llama Guard, NeMo 등 2차 안전 레이어가 입력·출력을 차단·필터링·재작성하는 빈도를 추적합니다. |
| (일반) | 의미 드리프트·충실도 | 알려진 정상 기준과 비교해 출력 벡터 임베딩의 통계적 퇴화를 롤링 윈도우로 측정해, 모델의 무음 감쇠를 포착합니다. |
이러한 기본 지표들을 OpenTelemetry(OTel)와 같은 오픈 표준 프레임워크에 연결하면, 트랜잭션이 사용자 인터랙션 → API 라우트 → Pinecone·Milvus 같은 벡터 스토어 조회 → GPU 노드 추론 실행까지 흐르는 과정을 끊김 없이 추적할 수 있습니다.
실전 적용: AI‑중심 SLO 구축
관측 전략은 데이터를 수집하는 데서 끝나지 않습니다. 시스템 성능을 실제 비즈니스 가치와 신뢰에 맞추는 명확한 서비스 수준 목표(SLO)를 정의해야 합니다.
비결정론적 시스템을 다룰 때는 서비스 수준 지표(SLI)를 순수한 기술 가동 시간에서 의미론적 준수로 전환해야 합니다.
예를 들어, “API 요청 99.9%가 200 ms 이내에 HTTP 200을 반환한다”는 목표 대신, AI 서비스 운영 팀은 다음과 같은 지표를 설정할 수 있습니다.
- 가드레일 정상성 SLI: 정렬 파이프라인을 통과하면서 안전 정책 위