[논문] 쿠버네티스 사고를 위한 감사 가능한 그래프 기반 근본 원인 분석

발행: (2026년 6월 7일 PM 09:05 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.08590v1

개요

Kubernetes 사고는 근본 원인 시스템이 보고한 향상이 사고 증거에서 비롯된 경우에만 신뢰할 수 있게 진단됩니다(시나리오‑특정 지름길이 아닌). 우리는 LLM 추론과 특화된 도구를 결합한 그래프‑가이드 RCA 에이전트인 Graph Traversal Agent를 제시합니다. 이 모델은 타입이 지정된 증거 그래프 위에서 추론하고, 결정론적 그래프 및 도구 연산을 통해 증거를 수집·검색 범위를 제한·제안된 판정을 검증합니다. 우리는 읽기 전용 증거 수집, 전파‑인식 진단, 실행 제한, 독립 검증 판정 등 운영 제약을 타입이 지정된 사고 그래프, LangGraph 탐색 상태 머신, 별도 검증 단계에 매핑합니다. 고정된 qwen-plus 심판이 채점한 ITBench 스냅샷에서, 감사된 시스템은 동일 시스템의 이전 버전 대비 루트‑원인 엔터티 F1 점수를 0.6087에서 0.9130(공통 23시나리오 하위 집합)으로 끌어올렸습니다. 프롬프트 수준의 소거 실험을 통해 시나리오‑특정 힌트를 제거했을 때 남는 이득을 구분했으며, 프롬프트를 제거한 구성에서도 19시나리오 하위 집합에 대해 0.6958 F1를 유지했습니다. 남은 이득은 증거 그래프에 이미 존재하는 주입된 결함 객체가 실제 원인인 ChaosMesh 시나리오에 집중되어 있어, 이를 넓은 클러스터‑전반 RCA 증거라기보다 벤치마크와 결합된 형태로 보고합니다. 동일 심판 비교, 프롬프트 수준 소거, 연쇄‑소스 검사, 텔레메트리 누수 방지 테스트 등 경량 검증을 통해 주장들을 ‘지원됨’, ‘보류 중’, ‘범위 외’로 구분했습니다. 본 연구는 ITBench OpenTelemetry‑demo 스냅샷에 한정합니다. 라이브 클러스터 실험은 엔지니어링 스트레스 테스트로 활용했지만, 알림 상태와 트레이스 가용성이 충분히 안정되지 않아 통제된 점수를 매길 수 없었으므로, 제품‑준비성이나 평균 복구 시간에 대한 주장은 하지 않습니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.SE
  • cs.AI
  • cs.DC

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여합니다.

저자

  • Anastasiia Kuvshinova
  • Seungmin Jin

논문 정보

  • arXiv ID: 2606.08590v1
  • 분류: cs.SE, cs.AI, cs.DC
  • 발표일: 2026년 6월 7일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »