[Paper] LatencyPrism: 온라인 비침해 레이턴시 스컬프팅을 통한 SLO 보장 LLM 추론

발행: (2026년 1월 14일 오후 04:46 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.09258v1

개요

LatencyPrism은 운영자가 대규모 언어 모델(LLM) 추론 파이프라인의 지연 시간을 실행 중인 코드를 건드리거나 서비스를 재시작하지 않고 모니터링하고 “조정”할 수 있게 해 주는 프로덕션‑그레이드 시스템입니다. 지연 시간을 전 과정에 걸쳐 세분화하고, 밀리초 단위로 이상 징후를 표시하며, SLO(서비스 수준 목표) 위반을 통제함으로써, 많은 AI‑기반 제품이 겪는 문제점, 즉 평균 지연 시간은 괜찮아 보여도 가끔 발생하는 지연 시간 급증으로 사용자 경험이 망가지는 상황을 해결합니다.

주요 기여

  • Zero‑intrusion latency monitoring 은 이기종 하드웨어(GPUs, TPUs, 기타 XPUs)와 소프트웨어 스택 전반에서 작동하며, 코드 변경이나 서비스 재시작이 필요 없습니다.
  • Real‑time, batch‑level profiling 은 초단위 알림 지연을 제공하여 운영자가 문제 발생 시 즉시 대응할 수 있게 합니다.
  • Anomaly detection model 은 정상적인 워크로드에 의한 지연 변동과 실제 성능 저하를 구분하며, 프로덕션 데이터에서 0.98 의 F1‑score 를 달성했습니다.
  • Multi‑platform latency sculpting : 시스템이 자동으로 요청을 제한하거나 재라우팅하여 지연을 SLO 한도 내에 유지합니다.
  • Extensive field deployment : 6개월 이상 수천 대의 XPU에서 검증되어 안정성과 낮은 오버헤드를 입증했습니다.

Source:

방법론

  1. 계측‑없는 데이터 수집 – LatencyPrism은 기존 텔레메트리(예: OS 카운터, XPU 드라이버 통계, 네트워크 타임스탬프)를 사이드‑채널 훅을 통해 끼어들어 추론 코드 경로에 영향을 주지 않고 수집합니다.
  2. 파이프라인 분해 – 엔드‑투‑엔드 요청을 논리적 단계(전처리, 토큰 생성, 후처리 등)로 나눕니다. 통계 모델은 원시 타임스탬프에서 각 단계의 기여도를 추정합니다.
  3. 온라인 이상 탐지 – 가우시안 혼합 모델과 적응형 임계값을 기반으로 하는 경량 스트리밍 분류기가 지속적으로 지연 배치를 점수화합니다. 점수가 동적 한계를 초과하면 알림이 발생합니다.
  4. SLO‑인식 스로틀링 – 잠재적인 위반이 감지되면 시스템은 백프레셔를 적용하거나 트래픽을 부하가 적은 노드로 재라우팅하여 지연 분포를 “조각조각” 다듬어 목표 백분위수 내에 머물도록 합니다.
  5. 근본 원인 지원 – 이상 신호를 하드웨어 활용도, 큐 길이, 모델‑특정 메트릭과 연관시켜 엔지니어가 스파이크가 모델, 하드웨어, 혹은 주변 인프라 중 어디에서 발생했는지 정확히 파악할 수 있도록 돕습니다.

결과 및 발견

MetricObservation
Alert latency스파이크 발생부터 알림 생성까지 12 ms의 중앙값.
Detection accuracy정상 및 이상 실행이 균형 있게 섞인 1.2 M 추론 배치 라벨 데이터셋에서 F1‑score = 0.98.
Overhead평균 ≤ 1.5 % CPU 및 ≤ 0.8 % XPU 사용량 추가, 처리량에 미미한 영향.
SLO compliance3,400대의 XPU 군집에서 99번째 백분위 지연 위반이 42 % 감소.
Root‑cause resolution time근본 원인 파악 평균 시간이 45 분(LatencyPrism 도입 전)에서 7 분으로 단축.

실험을 통해 LatencyPrism은 합법적인 워크로드‑유발 지연 증가(예: 배치 크기 확대)와 실제 이상(예: 드라이버 버그, 열 스로틀링)을 높은 신뢰도로 구분할 수 있음을 확인했으며, 이를 통해 보다 스마트한 자동 스케일링 결정을 지원한다.

Practical Implications

  • Improved user experience: By catching and mitigating latency spikes before they hit end users, products that rely on LLMs (chatbots, code assistants, search augmentation) can maintain smoother interactions.
  • Cost savings: Faster detection of hardware or software hiccups reduces wasted compute cycles and can prevent over‑provisioning of resources to meet SLOs.
  • Simplified ops: Teams no longer need to embed custom profiling code or schedule downtime for instrumentation upgrades—LatencyPrism works out‑of‑the‑box on existing deployments.
  • Portability: Because it is hardware‑agnostic, the same monitoring stack can be reused when migrating workloads between cloud providers or from on‑prem GPUs to specialized accelerators.
  • Data‑driven scaling: The fine‑grained latency breakdown feeds autoscaling policies with richer signals, allowing more precise scaling of inference nodes and better utilization of spot instances.

제한 사항 및 향후 작업

  • 추론에만 제한된 범위 – 현재 설계는 순방향 패스에 초점을 맞추고 있으며, 학습 시 프로파일링은 포함되지 않습니다.
  • 텔레메트리 품질에 대한 의존성 – 저수준 카운터가 비활성화되거나 가려진 환경(예: 특정 관리형 클라우드 서비스)에서는 단계 분해 정확도가 저하될 수 있습니다.
  • 모델별 튜닝 – 이상 탐지기는 기본적으로 잘 작동하지만, 동적 제어 흐름을 갖는 등 매우 불규칙한 모델은 맞춤형 특성 엔지니어링이 필요할 수 있습니다.
  • 향후 방향에는 LatencyPrism을 학습 파이프라인 지원으로 확장하고, 스로틀링 정책을 위한 강화 학습 기반 자동 튜닝을 통합하며, 다중 서비스 아키텍처에서 연쇄적인 지연 문제를 감지하기 위한 서비스 간 상관관계 추가가 포함됩니다.

저자

  • Du Yin
  • Jiayi Ren
  • Xiayu Sun
  • Tianyao Zhou
  • Haizhu Zhou
  • Ruiyan Ma
  • Danyang Zhang

논문 정보

  • arXiv ID: 2601.09258v1
  • 분류: cs.DC, cs.LG, cs.OS
  • 출판일: 2026년 1월 14일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...