[Paper] 重新思考延迟拒绝服务:攻击 LLM 服务框架,而非模型
发布: (2026年2月8日 GMT+8 17:05)
7 分钟阅读
原文: arXiv
I’m happy to help translate the passage, but I need you to provide the specific text you’d like translated. Could you please paste the content here? Once I have it, I’ll translate it into Simplified Chinese while preserving the source link and formatting as you requested.
概述
该论文揭示了一类新的延迟拒绝服务(DoS)攻击,这些攻击针对 serving infrastructure 的大型语言模型(LLMs),而非模型本身。通过利用现代 LLM 服务器调度和缓存 token 生成的方式,作者展示了攻击者可以显著放慢合法用户的推理速度——这为任何提供实时 LLM 访问的服务带来了成本和可用性方面的担忧。
关键贡献
- System‑level threat model: 证明了经典的算法复杂度攻击(例如,要求生成极长输出)在当代服务技巧(如持续批处理)下基本被中和。
- Fill‑and‑Squeeze attack: 提出一种两阶段策略,(1) 填充 全局键值(KV)缓存以触发排队阻塞,然后 (2) 压榨 调度器进行重复抢占,导致严重的延迟峰值。
- Black‑box feasibility: 表明该攻击可以在没有内部知识的情况下发起,仅使用提示工程和轻量级的内存使用侧信道探测。
- Empirical validation: 报告了在 Time‑to‑First‑Token(TTFT)上最高 20‑280× 的减速,以及在 Time‑Per‑Output‑Token(TPOT)上 1.5‑4× 的减速,同时成本比之前的算法攻击低 30‑40 %。
- Practical guidelines: 提供了一套提示模式和缓存耗尽策略的分类,可被防御者复用来基准测试并强化自己的服务堆栈。
方法论
- 威胁模型定义 – 攻击者是仅拥有 API 访问权限的外部客户端(无代码注入,无特权凭证)。
- 系统分析 – 作者剖析流行的开源 LLM 服务框架(例如 vLLM、FasterTransformer),以识别共享组件:全局 KV 缓存、批处理请求的调度器以及抢占式 token 生成循环。
- 攻击设计
- 填充阶段: 发送一批特制的提示词,生成大量中间 token,故意使 KV 缓存饱和。这会迫使调度器将后续请求排在“已满”请求之后(队首阻塞)。
- 压榨阶段: 发出短小且高频的提示词,反复抢占被阻塞的请求,使调度器不断切换上下文,浪费计算周期。
- 侧信道探测 – 使用时间测量和可观察的内存使用 API(例如 GPU 内存统计),推断缓存何时接近容量,从而让攻击者实时调整填充与压榨的比例。
- 评估 – 实验在多种硬件配置(单 GPU、多 GPU)以及不同模型规模(7B‑30B)上进行,以量化延迟膨胀和攻击成本(发送的 token 数量、API 调用次数)。
结果与发现
| 指标 | 基线(无攻击) | 先前的算法攻击 | Fill‑and‑Squeeze 攻击 |
|---|---|---|---|
| TTFT 延迟放慢 | 1×(基线) | 2‑5× | 20‑280× |
| TPOT 延迟放慢 | 1× | 1.2‑1.8× | 1.5‑4× |
| 攻击成本(令牌) | – | 100 %(完整输出长度) | 60‑70 % 的基线 |
| 在各框架中的成功情况 | – | 仅在旧服务器上有效 | 在 vLLM、FasterTransformer、Triton 上有效 |
关键要点
- 连续批处理会隔离长时间运行的请求,使纯输出长度攻击失效。
- KV 缓存是共享瓶颈;一旦饱和,即使是不相关的短请求也会受到影响。
- 重复的抢占会放大调度器的开销,使得轻微的缓存填充演变为巨大的延迟爆炸。
实际影响
- 云服务提供商和 SaaS 平台 在公开 LLM API 时必须监控 KV‑缓存使用情况,并在 每批次 而非每个请求上对每个客户端的 token 生成实施配额限制。
- 速率限制策略 需要考虑并发请求的 总计 token 消耗,而不仅仅是请求频率。
- 调度器重新设计:引入每个客户端的缓存分区或动态缓存驱逐策略可以缓解排队阻塞。
- 可观测性工具:添加缓存占用率、抢占式上下文切换以及 TTFT(首次输出时间)波动的实时指标,可提前发现攻击。
- 成本管理:由于延迟直接转化为 GPU 使用时间,成功的 Fill‑and‑Squeeze 攻击会大幅抬高运营成本——可能把“按使用付费”模式变成负担。
- 防御性提示清理:简单的启发式方法(例如限制每个提示的最大 token 生成量,检测重复的 “fill” 模式)可以削弱攻击而不影响正常使用。
限制与未来工作
- 该研究聚焦于 开源服务栈;专有系统可能拥有额外的缓解措施或不同的瓶颈。
- 攻击效果取决于 全局 KV 缓存的大小;极大的缓存可能提升攻击者的成本阈值。
- 侧信道探测假设攻击者能够读取内存使用统计;某些托管服务会隐藏这些指标。
- 未来的研究方向包括:自动检测缓存耗尽模式、自适应调度算法在负载下优先保证公平性,以及将威胁模型扩展到具有异构模型规模的多租户环境。
作者
- Tianyi Wang
- Huawei Fan
- Yuanchao Shu
- Peng Cheng
- Cong Wang
论文信息
- arXiv ID: 2602.07878v1
- 分类: cs.CR, cs.AI
- 出版日期: 2026年2月8日
- PDF: Download PDF