[Paper] TingIS: 실시간 위험 이벤트 탐지 from Noisy Customer Incidents at Enterprise Scale

발행: (2026년 4월 24일 AM 02:40 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.21889v1

개요

논문에서는 TingIS 라는 프로덕션‑급 시스템을 소개한다. 이 시스템은 잡음이 많고 대용량인 고객 사고 보고서를 대규모 클라우드‑네이티브 서비스에 대한 실시간 위험 알림으로 변환한다. 빠른 인덱싱을 대형 언어 모델(Large Language Models, LLMs)과 계층형 잡음‑필터링 파이프라인과 결합함으로써, TingIS는 몇 분 안에 실행 가능한 사고를 도출할 수 있어 비용이 많이 드는 서비스 중단을 방지하는 데 필수적이다.

주요 기여

  • Hybrid event‑linking engine: 전통적인 유사도 인덱싱과 LLM 기반 의미 추론을 결합하여 서로 다른 사고 메시지가 동일한 근본 위험 사건에 속하는지를 판단합니다.
  • Cascaded business‑routing architecture: 사고를 올바른 제품 라인 또는 서비스 도메인에 동적으로 할당함으로써 하위 트리아지를 개선합니다.
  • Multi‑dimensional noise‑reduction pipeline: 도메인 온톨로지, 통계적 이상치 탐지, 사용자 행동 신호를 활용해 관련 없는 잡담을 억제하면서 희귀하고 고영향 보고는 보존합니다.
  • Scalable production deployment: 분당 >2 k 메시지(≈300 k/일)를 처리하며 90번째 백분위수 알림 지연시간은 3.5 분, 고우선순위 사고에 대한 탐지율은 95 %입니다.
  • Empirical validation: 실제 사고 스트림에 대한 벤치마크에서 기존 클러스터링 또는 규칙 기반 시스템에 비해 라우팅 정확도, 클러스터링 품질, 신호‑대‑잡음 비율이 우수함을 입증했습니다.

방법론

  1. Ingestion & Indexing – 들어오는 인시던트 티켓은 먼저 토큰화된 후 근사 최근접 이웃(ANN) 인덱스(예: HNSW)에 저장됩니다. 이를 통해 새로운 메시지에 대해 서브밀리초 수준의 후보 검색이 가능합니다.
  2. LLM‑augmented similarity scoring – 각 후보 쌍에 대해 경량 LLM(예: distilled transformer)이 의미론적 유사도 점수를 생성합니다. 이 점수는 순수한 어휘 기반 메트릭이 놓치는 미묘한 비즈니스 용어, 약어 및 컨텍스트를 포착합니다.
  3. Event linking decision – 과거 라벨링된 인시던트 데이터를 기반으로 학습된 보정된 임계값을 사용해 두 메시지를 하나의 “리스크 이벤트”로 병합할지 여부를 결정합니다. 시스템은 스트리밍 방식으로 동작하며 클러스터를 점진적으로 업데이트합니다.
  4. Cascaded routing – 이벤트가 생성되면, 분류기 계층(규칙 기반 필터 → 얕은 ML 모델 → LLM 기반 의도 인식기)을 통해 해당 이벤트를 적절한 서비스 팀이나 에스컬레이션 경로로 라우팅합니다.
  5. Noise reduction – 세 가지 직교 필터가 잘못된 데이터를 정제합니다:
    • Domain knowledge filter – 알려진 오류 코드, 서비스명, 중복 제거 패턴으로 구성된 큐레이션된 온톨로지를 사용합니다.
    • Statistical filter – 빈도, 시간적 급증, 과거 심각도 분포를 기준으로 이상치를 표시합니다.
    • Behavioral filter – 신뢰 점수가 낮거나 반복적으로 낮은 심각도의 제출을 하는 사용자의 보고를 할인합니다.
  6. Alert generation – 정제되고 라우팅된 이벤트는 기존 인시던트 관리 API를 통해 알림을 발생시키며, SLA 지연 예산을 준수합니다.

결과 및 발견

MetricTingISBaseline (rule‑based clustering)
Routing accuracy92 %71 %
Clustering F10.840.61
Signal‑to‑Noise Ratio4.7× improvement
P90 alert latency3.5 min9.2 min
High‑priority discovery rate95 %68 %

저자들은 또한 LLM‑enhanced similarity 단계가 후보 쌍당 약 15 ms만 추가하여, 엔드‑투‑엔드 파이프라인이 요구되는 레이턴시 예산 내에 잘 들어맞는다고 보고했습니다. 실제 A/B 테스트에서는 중요한 인시던트에 대한 평균 해결 시간(MTTR)이 측정 가능한 수준으로 감소한 것이 확인되었습니다.

Practical Implications

  • Faster incident response – 개발자는 TingIS를 활용해 문제가 완전한 장애로 발전하기 전에 조기에 감지할 수 있어 MTTR을 몇 분 단축할 수 있습니다.
  • Reduced alert fatigue – 노이즈를 적극적으로 필터링함으로써, 대기 중인 엔지니어는 거짓 양성 알림을 적게 받아 실제 위험한 이벤트에 집중할 수 있습니다.
  • Cross‑service visibility – 라우팅 레이어가 사고를 자동으로 해당 제품 팀에 매핑하여, 종종 복구를 지연시키는 수동 트라이에지 단계를 없앱니다.
  • Plug‑and‑play architecture – 이 시스템은 오픈소스 ANN 라이브러리와 LLM 추론 서버 위에 구축되어, 이미 고객 티켓(Slack, Jira, 이메일 등)을 수집하는 모든 조직에 적용할 수 있습니다.
  • Cost savings – 고영향 이상을 조기에 감지하면 비용이 많이 드는 다운타임을 방지할 수 있어, 클라우드 제공업체와 SaaS 플랫폼에 직접적인 재무 ROI를 가져옵니다.

제한 사항 및 향후 작업

  • LLM 의존성 – 증류된 모델이 지연 시간을 낮게 유지하지만, 이 접근 방식은 여전히 GPU/가속기 자원을 필요로 합니다; 작은 팀은 더 저렴한 하드웨어를 위해 정확도를 포기해야 할 수도 있습니다.
  • 도메인‑특화 튜닝 – 온톨로지와 임계값 보정은 저자들의 기업에 맞게 수작업으로 제작되었습니다; TingIS를 새로운 분야에 적용하려면 상당한 온보딩 작업이 필요합니다.
  • 컨셉 드리프트 처리 – 서비스가 진화함에 따라 의미 체계가 변합니다; 저자들은 LLM 스코어러를 주기적으로 재학습하고 온톨로지를 업데이트할 것을 제안하지만, 자동화된 드리프트 감지 메커니즘은 아직 해결되지 않은 과제입니다.
  • 설명 가능성 – LLM 기반 유사도 점수는 쉽게 해석되지 않아 근본 원인 분석을 방해할 수 있습니다; 향후 작업에서는 어텐션 기반 설명이나 하이브리드 심볼릭‑신경 모델을 통합할 수 있습니다.

전반적으로 TingIS는 고전적인 IR 기술과 최신 LLM을 신중하게 결합하면, 잡음이 많은 고객 데이터에서 기업 규모의 실시간 위험 탐지를 제공할 수 있음을 보여줍니다—이는 많은 DevOps 및 신뢰성 팀이 자체 인시던트 파이프라인에 적용할 수 있는 청사진입니다.

저자

  • Jun Wang
  • Ziyin Zhang
  • Rui Wang
  • Hang Yu
  • Peng Di
  • Rui Wang

논문 정보

  • arXiv ID: 2604.21889v1
  • Categories: cs.CL, cs.AI, cs.LG
  • Published: 2026년 4월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »