[Paper] 重新思考延迟拒绝服务:攻击 LLM 服务框架,而非模型

发布: (2026年2月8日 GMT+8 17:05)
7 分钟阅读
原文: arXiv

I’m happy to help translate the passage, but I need you to provide the specific text you’d like translated. Could you please paste the content here? Once I have it, I’ll translate it into Simplified Chinese while preserving the source link and formatting as you requested.

概述

该论文揭示了一类新的延迟拒绝服务(DoS)攻击,这些攻击针对 serving infrastructure 的大型语言模型(LLMs),而非模型本身。通过利用现代 LLM 服务器调度和缓存 token 生成的方式,作者展示了攻击者可以显著放慢合法用户的推理速度——这为任何提供实时 LLM 访问的服务带来了成本和可用性方面的担忧。

关键贡献

  • System‑level threat model: 证明了经典的算法复杂度攻击(例如,要求生成极长输出)在当代服务技巧(如持续批处理)下基本被中和。
  • Fill‑and‑Squeeze attack: 提出一种两阶段策略,(1) 填充 全局键值(KV)缓存以触发排队阻塞,然后 (2) 压榨 调度器进行重复抢占,导致严重的延迟峰值。
  • Black‑box feasibility: 表明该攻击可以在没有内部知识的情况下发起,仅使用提示工程和轻量级的内存使用侧信道探测。
  • Empirical validation: 报告了在 Time‑to‑First‑Token(TTFT)上最高 20‑280× 的减速,以及在 Time‑Per‑Output‑Token(TPOT)上 1.5‑4× 的减速,同时成本比之前的算法攻击低 30‑40 %。
  • Practical guidelines: 提供了一套提示模式和缓存耗尽策略的分类,可被防御者复用来基准测试并强化自己的服务堆栈。

方法论

  1. 威胁模型定义 – 攻击者是仅拥有 API 访问权限的外部客户端(无代码注入,无特权凭证)。
  2. 系统分析 – 作者剖析流行的开源 LLM 服务框架(例如 vLLM、FasterTransformer),以识别共享组件:全局 KV 缓存、批处理请求的调度器以及抢占式 token 生成循环。
  3. 攻击设计
    • 填充阶段: 发送一批特制的提示词,生成大量中间 token,故意使 KV 缓存饱和。这会迫使调度器将后续请求排在“已满”请求之后(队首阻塞)。
    • 压榨阶段: 发出短小且高频的提示词,反复抢占被阻塞的请求,使调度器不断切换上下文,浪费计算周期。
  4. 侧信道探测 – 使用时间测量和可观察的内存使用 API(例如 GPU 内存统计),推断缓存何时接近容量,从而让攻击者实时调整填充与压榨的比例。
  5. 评估 – 实验在多种硬件配置(单 GPU、多 GPU)以及不同模型规模(7B‑30B)上进行,以量化延迟膨胀和攻击成本(发送的 token 数量、API 调用次数)。

结果与发现

指标基线(无攻击)先前的算法攻击Fill‑and‑Squeeze 攻击
TTFT 延迟放慢1×(基线)2‑5×20‑280×
TPOT 延迟放慢1.2‑1.8×1.5‑4×
攻击成本(令牌)100 %(完整输出长度)60‑70 % 的基线
在各框架中的成功情况仅在旧服务器上有效vLLM、FasterTransformer、Triton 上有效

关键要点

  • 连续批处理会隔离长时间运行的请求,使纯输出长度攻击失效。
  • KV 缓存是共享瓶颈;一旦饱和,即使是不相关的短请求也会受到影响。
  • 重复的抢占会放大调度器的开销,使得轻微的缓存填充演变为巨大的延迟爆炸。

实际影响

  • 云服务提供商和 SaaS 平台 在公开 LLM API 时必须监控 KV‑缓存使用情况,并在 每批次 而非每个请求上对每个客户端的 token 生成实施配额限制。
  • 速率限制策略 需要考虑并发请求的 总计 token 消耗,而不仅仅是请求频率。
  • 调度器重新设计:引入每个客户端的缓存分区或动态缓存驱逐策略可以缓解排队阻塞。
  • 可观测性工具:添加缓存占用率、抢占式上下文切换以及 TTFT(首次输出时间)波动的实时指标,可提前发现攻击。
  • 成本管理:由于延迟直接转化为 GPU 使用时间,成功的 Fill‑and‑Squeeze 攻击会大幅抬高运营成本——可能把“按使用付费”模式变成负担。
  • 防御性提示清理:简单的启发式方法(例如限制每个提示的最大 token 生成量,检测重复的 “fill” 模式)可以削弱攻击而不影响正常使用。

限制与未来工作

  • 该研究聚焦于 开源服务栈;专有系统可能拥有额外的缓解措施或不同的瓶颈。
  • 攻击效果取决于 全局 KV 缓存的大小;极大的缓存可能提升攻击者的成本阈值。
  • 侧信道探测假设攻击者能够读取内存使用统计;某些托管服务会隐藏这些指标。
  • 未来的研究方向包括:自动检测缓存耗尽模式、自适应调度算法在负载下优先保证公平性,以及将威胁模型扩展到具有异构模型规模的多租户环境。

作者

  • Tianyi Wang
  • Huawei Fan
  • Yuanchao Shu
  • Peng Cheng
  • Cong Wang

论文信息

  • arXiv ID: 2602.07878v1
  • 分类: cs.CR, cs.AI
  • 出版日期: 2026年2月8日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »