[Paper] 지연 서비스 거부 재고: 모델이 아닌 LLM 서빙 프레임워크를 공격

발행: 3일 전 (2026년 2월 8일 오후 06:05 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.07878v1

Overview

이 논문은 대형 언어 모델(LLM)의 서빙 인프라를 대상으로 하는 새로운 유형의 지연‑서비스 거부(DoS) 공격을 밝혀냅니다. 최신 LLM 서버가 토큰 생성을 스케줄링하고 캐시하는 방식을 악용함으로써, 공격자는 정당한 사용자의 추론 속도를 크게 늦출 수 있음을 보여줍니다—이는 실시간 LLM 접근을 제공하는 모든 서비스에 비용 및 가용성 문제를 제기합니다.

주요 기여

시스템‑level 위협 모델: 고전적인 알고리즘 복잡도 공격(예: 매우 긴 출력 요청)이 연속 배치와 같은 현대 서빙 기법에 의해 대부분 무력화됨을 보여줍니다.
Fill‑and‑Squeeze 공격: 두 단계 전략을 소개합니다. (1) fills 전역 키‑값(KV) 캐시를 채워 헤드‑오브‑라인 차단을 유발하고, (2) squeezes 스케줄러를 반복적인 선점으로 몰아 심각한 지연 스파이크를 초래합니다.
블랙‑box 실현 가능성: 내부 지식 없이도 프롬프트 엔지니어링과 메모리 사용량에 대한 가벼운 사이드‑채널 탐색만으로 공격을 실행할 수 있음을 보여줍니다.
실증적 검증: Time‑to‑First‑Token (TTFT)에서 최대 20‑280× 지연, Time‑Per‑Output‑Token (TPOT)에서 1.5‑4× 지연을 기록했으며, 기존 알고리즘 공격보다 30‑40 % 비용이 적게 듭니다.
실용적인 가이드라인: 방어자가 자체 서빙 스택을 벤치마크하고 강화할 수 있도록 프롬프트 패턴 및 캐시‑소진 전술에 대한 분류 체계를 제공합니다.

Methodology

Threat model definition – 공격자는 API 접근만 가능한 외부 클라이언트이며(코드 인젝션 없음, 특권 자격 증명 없음)입니다.
System analysis – 저자들은 인기 있는 오픈‑소스 LLM 서빙 프레임워크(e.g., vLLM, FasterTransformer)를 분석하여 공통 구성 요소를 식별합니다: 전역 KV 캐시, 요청을 배치하는 스케줄러, 그리고 선점형 토큰‑생성 루프.
Attack design
- Fill phase: 많은 중간 토큰을 생성하는 특수하게 설계된 프롬프트를 대량으로 전송하여 KV 캐시를 의도적으로 포화시킵니다. 이는 스케줄러가 “가득 찬” 요청 뒤에 후속 요청을 대기열에 넣게 만들며(선두 차단)합니다.
- Squeeze phase: 짧고 고빈도 프롬프트를 발행하여 차단된 요청을 반복적으로 선점하게 함으로써 스케줄러가 지속적으로 컨텍스트를 전환하고 연산 사이클을 낭비하도록 합니다.
Side‑channel probing – 타이밍 측정 및 관찰 가능한 메모리 사용 API(e.g., GPU memory stats)를 활용해 캐시가 거의 가득 찼을 때를 추정하고, 공격자는 실시간으로 fill‑to‑squeeze 비율을 조정할 수 있습니다.
Evaluation – 다양한 하드웨어 구성(단일 GPU, 다중 GPU) 및 모델 크기(7B‑30B)에서 실험을 수행하여 지연 시간 증가와 공격 비용(전송된 토큰 수, 수행된 API 호출 수)을 정량화합니다.

결과 및 발견

지표	기준 (공격 없음)	이전 알고리즘 공격	Fill‑and‑Squeeze 공격
TTFT 지연	1× (기준)	2‑5×	20‑280×
TPOT 지연	1×	1.2‑1.8×	1.5‑4×
공격 비용 (토큰)	–	100 % (전체 출력 길이)	60‑70 % (기준 대비)
프레임워크 전반 성공	–	오래된 서버에서만 효과적	vLLM, FasterTransformer, Triton에서 작동

주요 시사점

연속 배칭은 장기 실행 요청을 격리하여 순수 출력 길이 공격을 무효화합니다.
KV 캐시는 공유 병목 현상이며, 포화되면 관련 없는 짧은 요청조차 영향을 받습니다.
반복적인 선점은 스케줄러 오버헤드를 증폭시켜, 작은 캐시 채우기가 큰 지연 폭발로 이어집니다.

Practical Implications

Cloud providers & SaaS platforms that expose LLM APIs must monitor KV‑cache utilization and enforce per‑client quotas on token generation per batch rather than per request.
→ 클라우드 제공업체 및 SaaS 플랫폼이 LLM API를 제공하는 경우 KV‑cache 사용량을 모니터링하고, 요청당이 아니라 배치당 토큰 생성에 대한 클라이언트별 할당량을 적용해야 합니다.
Rate‑limiting policies need to consider aggregate token consumption across concurrent requests, not just request frequency.
→ 속도 제한 정책은 단순히 요청 빈도만이 아니라 동시 요청 전반에 걸친 총합 토큰 소비를 고려해야 합니다.
Scheduler redesign: Introducing per‑client cache partitions or dynamic cache eviction policies can mitigate head‑of‑line blocking.
→ 스케줄러 재설계: 클라이언트별 캐시 파티션을 도입하거나 동적 캐시 제거 정책을 적용하면 선두 차단(head‑of‑line blocking)을 완화할 수 있습니다.
Observability tooling: Adding real‑time metrics for cache occupancy, pre‑emptive context switches, and TTFT variance can surface attacks early.
→ 관측성 도구: 캐시 점유율, 선점형 컨텍스트 스위치, TTFT 변동에 대한 실시간 메트릭을 추가하면 공격을 조기에 감지할 수 있습니다.
Cost management: Since latency directly translates to GPU time, a successful Fill‑and‑Squeeze attack can inflate operating expenses dramatically—potentially turning a “pay‑as‑you‑go” model into a liability.
→ 비용 관리: 지연 시간이 GPU 사용 시간으로 직접 연결되므로, 성공적인 Fill‑and‑Squeeze 공격은 운영 비용을 크게 증가시킬 수 있으며, “사용량 기반 결제” 모델을 비용 부담으로 전환시킬 위험이 있습니다.
Defensive prompt sanitization: Simple heuristics (e.g., limiting maximum token generation per prompt, detecting repetitive “fill” patterns) can blunt the attack without harming normal usage.
→ 방어적 프롬프트 정제: 간단한 휴리스틱(예: 프롬프트당 최대 토큰 생성 제한, 반복적인 “fill” 패턴 감지 등)을 적용하면 정상 사용에 영향을 주지 않으면서 공격을 완화할 수 있습니다.

제한 사항 및 향후 연구

이 연구는 오픈‑소스 서빙 스택에 초점을 맞추고 있으며, 독점 시스템은 추가적인 완화 조치나 다른 병목 현상이 있을 수 있습니다.
공격 효율성은 전역 KV 캐시의 크기에 따라 달라지며, 매우 큰 캐시는 공격자의 비용 임계값을 높일 수 있습니다.
사이드‑채널 탐지는 공격자가 메모리 사용 통계를 읽을 수 있다고 가정합니다; 일부 관리형 서비스는 이러한 메트릭을 숨깁니다.
향후 연구 방향에는 캐시 고갈 패턴의 자동 탐지, 부하 하에서 공정성을 우선시하는 적응형 스케줄러 알고리즘, 그리고 이질적인 모델 크기를 가진 다중 테넌트 환경으로 위협 모델을 확장하는 것이 포함됩니다.

저자

Tianyi Wang
Huawei Fan
Yuanchao Shu
Peng Cheng
Cong Wang

논문 정보

arXiv ID: 2602.07878v1
분류: cs.CR, cs.AI
발행일: 2026년 2월 8일
PDF: PDF 다운로드

[Paper] 지연 서비스 거부 재고: 모델이 아닌 LLM 서빙 프레임워크를 공격

Overview

주요 기여

Methodology

결과 및 발견

주요 시사점

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Olaf-World: 비디오 세계 모델링을 위한 잠재 행동 정렬

[Paper] 설명 가능한 Federated Learning을 향하여: Differential Privacy의 영향 이해

[Paper] 다양체 위에서 학습하기: 표준 Diffusion Transformers를 Representation Encoders로 잠금 해제

[Paper] 루프형 트랜스포머를 위한 단계별 데이터 귀속