[Paper] 대규모 언어 모델 서빙의 탄력성을 위한 KevlarFlow

발행: 1주 전 (2026년 1월 30일 오전 10:17 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.22438v1

개요

대규모 언어 모델(LLM) 서빙 플랫폼은 AI 기반 제품의 핵심이 되고 있지만, 여전히 놀라울 정도로 취약합니다. 하이퍼스케일 클러스터에서 단일 하드웨어 결함이 발생하면 여러 분에 걸친 서비스 중단으로 이어질 수 있습니다. 논문 Towards Resiliency in Large Language Model Serving with KevlarFlow는 시스템 일부가 실패하더라도 복구 속도를 크게 높이고 지연 시간을 낮게 유지하는 새로운 서빙 아키텍처를 제안합니다.

주요 기여

KevlarFlow 아키텍처는 모델 병렬 초기화를 요청 처리와 분리하여 새로운 워커가 서비스를 중단하지 않고 참여할 수 있게 합니다.
동적 트래픽 재라우팅은 실패한 노드를 우회하도록 추론 요청을 자동으로 재지정하여 처리량을 유지합니다.
백그라운드 KV‑캐시 복제는 토큰 수준의 어텐션 캐시를 복제본 간에 동기화하여 장애 발생 후 비용이 많이 드는 워밍업 지연을 없앱니다.
실증적 평가는 주요 LLM 서빙 스택과 비교했을 때 평균 복구 시간(MTTR)을 20배 감소시키고 99번째 백분위수 최초 토큰 도달 시간(TTFT)을 최대 574배 개선함을 보여줍니다.
무시할 정도의 런타임 오버헤드(≤ 2 % 추가 지연)는 시스템이 장애 없이 운영될 때 나타나며, 이 접근 방식이 프로덕션에 적합함을 입증합니다.

Source: …

방법론

Decoupled Model Parallelism – 모든 GPU 샤드가 전체 모델을 로드할 때까지 파이프라인이 차단되는 단일 파이프라인을 실행하는 대신, KevlarFlow는 각 샤드를 독립적으로 시작합니다. 가벼운 코디네이터가 어떤 샤드가 준비되었는지 추적하고, 샤드가 사용 가능해지는 즉시 트래픽 라우팅을 시작합니다.
Dynamic Traffic Rerouting – 헬스‑모니터링 레이어가 각 샤드를 지속적으로 탐색합니다. 장애가 감지되면 라우터가 실시간으로 포워딩 테이블을 업데이트하여 새로운 추론 요청을 남은 정상 샤드로 전송합니다. 이미 진행 중인 요청은 살아남은 샤드에서 완료되거나 우아하게 중단됩니다.
Background KV‑Cache Replication – 각 대화의 어텐션 상태를 저장하는 KV(키‑값) 캐시가 대기 복제본 집합에 비동기적으로 복제됩니다. 기본 샤드가 충돌하면 대기 복제본이 이미 최신 캐시 사본을 보유하고 있으므로, 새로운 샤드가 전체 컨텍스트를 다시 계산하지 않고도 생성 작업을 재개할 수 있습니다.
Evaluation Setup – 실험은 64‑GPU 클러스터에서 인기 있는 LLM(LLaMA‑13B, Falcon‑40B 등)을 사용해 수행되었습니다. GPU 프로세스를 프로그래밍 방식으로 종료하거나 네트워크 링크를 차단하여 결함을 주입했으며, 지연 시간, 처리량, MTTR, TTFT와 같은 지표를 기존 서빙 프레임워크(vLLM, DeepSpeed‑Inference)와 비교하여 기록했습니다.

Results & Findings

Metric	Baseline	KevlarFlow	Improvement
Mean‑Time‑to‑Recovery (MTTR)	~10 min	~30 s	20× faster
Average latency (steady‑state)	120 ms	115 ms	~4 % lower
p99 latency	250 ms	89 ms	2.8× faster
Average TTFT (after failure)	2.1 s	5.5 ms	378.9× faster
p99 TTFT (after failure)	4.3 s	7.5 ms	574.6× faster
Runtime overhead (no failure)	—	+1.8 % latency	Negligible

이 수치들은 KevlarFlow가 회복 속도가 크게 빨라질 뿐만 아니라, 장애 발생 중 및 이후에도 사용자에게 보여지는 지연 시간을 낮게 유지하며, 시스템이 정상일 때는 거의 추가 비용이 들지 않음을 보여줍니다.

Practical Implications

Higher SLA compliance – 서브초 응답을 약속하는 서비스가 이제 하드웨어 문제에도 지연 SLA를 위반하지 않고 지속될 수 있습니다.
Cost‑effective scaling – KevlarFlow가 개별 노드 장애의 영향을 완화하므로 운영자는 과다하게 준비된 대기 풀의 필요성을 줄이고 낮은 중복성으로 더 큰 클러스터를 운영할 수 있습니다.
Developer ergonomics – 분리된 초기화 모델 덕분에 엔지니어는 전체 서비스를 중단하지 않고도 새로운 모델 버전을 배포하거나 GPU 샤드를 추가할 수 있습니다.
Better UX for conversational AI – 더 빠른 TTFT는 실시간 어시스턴트, 코드 완성 도구, 게임 봇 등에서 특히 중요한 원활한 채팅 경험으로 직접 연결됩니다.
Simplified ops tooling – 트래픽 재라우팅 및 캐시 복제가 서빙 스택에 내장되어 있기 때문에 기존 모니터링 및 오케스트레이션 파이프라인(Kubernetes, Prometheus)은 최소한의 맞춤 로직만 필요합니다.

제한 사항 및 향후 작업

캐시 일관성 트레이드‑오프 – 비동기 KV‑캐시 복제는 드물게 업데이트 중에 실패가 발생하면 약간 오래된 컨텍스트를 제공할 수 있습니다. 저자들은 더 강력한 일관성 프로토콜을 탐색할 것을 제안합니다.
하드웨어 다양성 – 실험은 동질적인 GPU 클러스터에 초점을 맞췄으며, KevlarFlow를 이기종 환경(CPU‑전용 노드, TPU)으로 확장하는 것은 아직 해결되지 않은 과제입니다.
모델 크기 한계 – 이 접근법은 40‑B‑파라미터 모델까지 확장되지만, 초대형 모델(>100 B)은 캐시 동기화 시 대역폭 병목에 직면할 수 있어 보다 효율적인 압축 또는 델타‑인코딩 기술에 대한 연구가 필요합니다.
보안 고려사항 – 노드 간 KV 캐시 복제는 추가적인 공격 표면을 만들며, 향후 작업에서는 암호화 및 접근 제어 메커니즘을 통합해야 합니다.

저자

Shangshu Qian
Kipling Liu
P. C. Sruthi
Lin Tan
Yongle Zhang

논문 정보

arXiv ID: 2601.22438v1
Categories: cs.DC, cs.CL, cs.LG
Published: 2026년 1월 30일
PDF: PDF 다운로드

[Paper] 대규모 언어 모델 서빙의 탄력성을 위한 KevlarFlow

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] FOCUS: DLLMs는 Compute Bound를 제어하는 방법을 알고 있다

[Paper] Agnostic 언어 식별 및 생성

[Paper] 이제 들으세요: Audio Narrative Attacks Against Large Audio-Language Models

[Paper] Process Rewards를 활용한 Multiagent Systems 스케일링