[Paper] 지연 서비스 거부 재고: 모델이 아닌 LLM 서빙 프레임워크를 공격
Source: arXiv - 2602.07878v1
Overview
이 논문은 대형 언어 모델(LLM)의 서빙 인프라를 대상으로 하는 새로운 유형의 지연‑서비스 거부(DoS) 공격을 밝혀냅니다. 최신 LLM 서버가 토큰 생성을 스케줄링하고 캐시하는 방식을 악용함으로써, 공격자는 정당한 사용자의 추론 속도를 크게 늦출 수 있음을 보여줍니다—이는 실시간 LLM 접근을 제공하는 모든 서비스에 비용 및 가용성 문제를 제기합니다.
주요 기여
- 시스템‑level 위협 모델: 고전적인 알고리즘 복잡도 공격(예: 매우 긴 출력 요청)이 연속 배치와 같은 현대 서빙 기법에 의해 대부분 무력화됨을 보여줍니다.
- Fill‑and‑Squeeze 공격: 두 단계 전략을 소개합니다. (1) fills 전역 키‑값(KV) 캐시를 채워 헤드‑오브‑라인 차단을 유발하고, (2) squeezes 스케줄러를 반복적인 선점으로 몰아 심각한 지연 스파이크를 초래합니다.
- 블랙‑box 실현 가능성: 내부 지식 없이도 프롬프트 엔지니어링과 메모리 사용량에 대한 가벼운 사이드‑채널 탐색만으로 공격을 실행할 수 있음을 보여줍니다.
- 실증적 검증: Time‑to‑First‑Token (TTFT)에서 최대 20‑280× 지연, Time‑Per‑Output‑Token (TPOT)에서 1.5‑4× 지연을 기록했으며, 기존 알고리즘 공격보다 30‑40 % 비용이 적게 듭니다.
- 실용적인 가이드라인: 방어자가 자체 서빙 스택을 벤치마크하고 강화할 수 있도록 프롬프트 패턴 및 캐시‑소진 전술에 대한 분류 체계를 제공합니다.
Methodology
- Threat model definition – 공격자는 API 접근만 가능한 외부 클라이언트이며(코드 인젝션 없음, 특권 자격 증명 없음)입니다.
- System analysis – 저자들은 인기 있는 오픈‑소스 LLM 서빙 프레임워크(e.g., vLLM, FasterTransformer)를 분석하여 공통 구성 요소를 식별합니다: 전역 KV 캐시, 요청을 배치하는 스케줄러, 그리고 선점형 토큰‑생성 루프.
- Attack design
- Fill phase: 많은 중간 토큰을 생성하는 특수하게 설계된 프롬프트를 대량으로 전송하여 KV 캐시를 의도적으로 포화시킵니다. 이는 스케줄러가 “가득 찬” 요청 뒤에 후속 요청을 대기열에 넣게 만들며(선두 차단)합니다.
- Squeeze phase: 짧고 고빈도 프롬프트를 발행하여 차단된 요청을 반복적으로 선점하게 함으로써 스케줄러가 지속적으로 컨텍스트를 전환하고 연산 사이클을 낭비하도록 합니다.
- Side‑channel probing – 타이밍 측정 및 관찰 가능한 메모리 사용 API(e.g., GPU memory stats)를 활용해 캐시가 거의 가득 찼을 때를 추정하고, 공격자는 실시간으로 fill‑to‑squeeze 비율을 조정할 수 있습니다.
- Evaluation – 다양한 하드웨어 구성(단일 GPU, 다중 GPU) 및 모델 크기(7B‑30B)에서 실험을 수행하여 지연 시간 증가와 공격 비용(전송된 토큰 수, 수행된 API 호출 수)을 정량화합니다.
결과 및 발견
| 지표 | 기준 (공격 없음) | 이전 알고리즘 공격 | Fill‑and‑Squeeze 공격 |
|---|---|---|---|
| TTFT 지연 | 1× (기준) | 2‑5× | 20‑280× |
| TPOT 지연 | 1× | 1.2‑1.8× | 1.5‑4× |
| 공격 비용 (토큰) | – | 100 % (전체 출력 길이) | 60‑70 % (기준 대비) |
| 프레임워크 전반 성공 | – | 오래된 서버에서만 효과적 | vLLM, FasterTransformer, Triton에서 작동 |
주요 시사점
- 연속 배칭은 장기 실행 요청을 격리하여 순수 출력 길이 공격을 무효화합니다.
- KV 캐시는 공유 병목 현상이며, 포화되면 관련 없는 짧은 요청조차 영향을 받습니다.
- 반복적인 선점은 스케줄러 오버헤드를 증폭시켜, 작은 캐시 채우기가 큰 지연 폭발로 이어집니다.
Practical Implications
-
Cloud providers & SaaS platforms that expose LLM APIs must monitor KV‑cache utilization and enforce per‑client quotas on token generation per batch rather than per request.
→ 클라우드 제공업체 및 SaaS 플랫폼이 LLM API를 제공하는 경우 KV‑cache 사용량을 모니터링하고, 요청당이 아니라 배치당 토큰 생성에 대한 클라이언트별 할당량을 적용해야 합니다. -
Rate‑limiting policies need to consider aggregate token consumption across concurrent requests, not just request frequency.
→ 속도 제한 정책은 단순히 요청 빈도만이 아니라 동시 요청 전반에 걸친 총합 토큰 소비를 고려해야 합니다. -
Scheduler redesign: Introducing per‑client cache partitions or dynamic cache eviction policies can mitigate head‑of‑line blocking.
→ 스케줄러 재설계: 클라이언트별 캐시 파티션을 도입하거나 동적 캐시 제거 정책을 적용하면 선두 차단(head‑of‑line blocking)을 완화할 수 있습니다. -
Observability tooling: Adding real‑time metrics for cache occupancy, pre‑emptive context switches, and TTFT variance can surface attacks early.
→ 관측성 도구: 캐시 점유율, 선점형 컨텍스트 스위치, TTFT 변동에 대한 실시간 메트릭을 추가하면 공격을 조기에 감지할 수 있습니다. -
Cost management: Since latency directly translates to GPU time, a successful Fill‑and‑Squeeze attack can inflate operating expenses dramatically—potentially turning a “pay‑as‑you‑go” model into a liability.
→ 비용 관리: 지연 시간이 GPU 사용 시간으로 직접 연결되므로, 성공적인 Fill‑and‑Squeeze 공격은 운영 비용을 크게 증가시킬 수 있으며, “사용량 기반 결제” 모델을 비용 부담으로 전환시킬 위험이 있습니다. -
Defensive prompt sanitization: Simple heuristics (e.g., limiting maximum token generation per prompt, detecting repetitive “fill” patterns) can blunt the attack without harming normal usage.
→ 방어적 프롬프트 정제: 간단한 휴리스틱(예: 프롬프트당 최대 토큰 생성 제한, 반복적인 “fill” 패턴 감지 등)을 적용하면 정상 사용에 영향을 주지 않으면서 공격을 완화할 수 있습니다.
제한 사항 및 향후 연구
- 이 연구는 오픈‑소스 서빙 스택에 초점을 맞추고 있으며, 독점 시스템은 추가적인 완화 조치나 다른 병목 현상이 있을 수 있습니다.
- 공격 효율성은 전역 KV 캐시의 크기에 따라 달라지며, 매우 큰 캐시는 공격자의 비용 임계값을 높일 수 있습니다.
- 사이드‑채널 탐지는 공격자가 메모리 사용 통계를 읽을 수 있다고 가정합니다; 일부 관리형 서비스는 이러한 메트릭을 숨깁니다.
- 향후 연구 방향에는 캐시 고갈 패턴의 자동 탐지, 부하 하에서 공정성을 우선시하는 적응형 스케줄러 알고리즘, 그리고 이질적인 모델 크기를 가진 다중 테넌트 환경으로 위협 모델을 확장하는 것이 포함됩니다.
저자
- Tianyi Wang
- Huawei Fan
- Yuanchao Shu
- Peng Cheng
- Cong Wang
논문 정보
- arXiv ID: 2602.07878v1
- 분류: cs.CR, cs.AI
- 발행일: 2026년 2월 8일
- PDF: PDF 다운로드