[Paper] 重新思考延迟拒绝服务：攻击 LLM 服务框架，而非模型

发布: 3天前 (2026年2月8日 GMT+8 17:05)

7 分钟阅读

原文: arXiv

I’m happy to help translate the passage, but I need you to provide the specific text you’d like translated. Could you please paste the content here? Once I have it, I’ll translate it into Simplified Chinese while preserving the source link and formatting as you requested.

概述

该论文揭示了一类新的延迟拒绝服务（DoS）攻击，这些攻击针对 serving infrastructure 的大型语言模型（LLMs），而非模型本身。通过利用现代 LLM 服务器调度和缓存 token 生成的方式，作者展示了攻击者可以显著放慢合法用户的推理速度——这为任何提供实时 LLM 访问的服务带来了成本和可用性方面的担忧。

关键贡献

System‑level threat model: 证明了经典的算法复杂度攻击（例如，要求生成极长输出）在当代服务技巧（如持续批处理）下基本被中和。
Fill‑and‑Squeeze attack: 提出一种两阶段策略，(1) 填充全局键值（KV）缓存以触发排队阻塞，然后 (2) 压榨调度器进行重复抢占，导致严重的延迟峰值。
Black‑box feasibility: 表明该攻击可以在没有内部知识的情况下发起，仅使用提示工程和轻量级的内存使用侧信道探测。
Empirical validation: 报告了在 Time‑to‑First‑Token（TTFT）上最高 20‑280× 的减速，以及在 Time‑Per‑Output‑Token（TPOT）上 1.5‑4× 的减速，同时成本比之前的算法攻击低 30‑40 %。
Practical guidelines: 提供了一套提示模式和缓存耗尽策略的分类，可被防御者复用来基准测试并强化自己的服务堆栈。

方法论

威胁模型定义 – 攻击者是仅拥有 API 访问权限的外部客户端（无代码注入，无特权凭证）。
系统分析 – 作者剖析流行的开源 LLM 服务框架（例如 vLLM、FasterTransformer），以识别共享组件：全局 KV 缓存、批处理请求的调度器以及抢占式 token 生成循环。
攻击设计
- 填充阶段： 发送一批特制的提示词，生成大量中间 token，故意使 KV 缓存饱和。这会迫使调度器将后续请求排在“已满”请求之后（队首阻塞）。
- 压榨阶段： 发出短小且高频的提示词，反复抢占被阻塞的请求，使调度器不断切换上下文，浪费计算周期。
侧信道探测 – 使用时间测量和可观察的内存使用 API（例如 GPU 内存统计），推断缓存何时接近容量，从而让攻击者实时调整填充与压榨的比例。
评估 – 实验在多种硬件配置（单 GPU、多 GPU）以及不同模型规模（7B‑30B）上进行，以量化延迟膨胀和攻击成本（发送的 token 数量、API 调用次数）。

结果与发现

指标	基线（无攻击）	先前的算法攻击	Fill‑and‑Squeeze 攻击
TTFT 延迟放慢	1×（基线）	2‑5×	20‑280×
TPOT 延迟放慢	1×	1.2‑1.8×	1.5‑4×
攻击成本（令牌）	–	100 %（完整输出长度）	60‑70 % 的基线
在各框架中的成功情况	–	仅在旧服务器上有效	在 vLLM、FasterTransformer、Triton 上有效

关键要点

连续批处理会隔离长时间运行的请求，使纯输出长度攻击失效。
KV 缓存是共享瓶颈；一旦饱和，即使是不相关的短请求也会受到影响。
重复的抢占会放大调度器的开销，使得轻微的缓存填充演变为巨大的延迟爆炸。

实际影响

云服务提供商和 SaaS 平台 在公开 LLM API 时必须监控 KV‑缓存使用情况，并在 每批次 而非每个请求上对每个客户端的 token 生成实施配额限制。
速率限制策略 需要考虑并发请求的总计 token 消耗，而不仅仅是请求频率。
调度器重新设计：引入每个客户端的缓存分区或动态缓存驱逐策略可以缓解排队阻塞。
可观测性工具：添加缓存占用率、抢占式上下文切换以及 TTFT（首次输出时间）波动的实时指标，可提前发现攻击。
成本管理：由于延迟直接转化为 GPU 使用时间，成功的 Fill‑and‑Squeeze 攻击会大幅抬高运营成本——可能把“按使用付费”模式变成负担。
防御性提示清理：简单的启发式方法（例如限制每个提示的最大 token 生成量，检测重复的 “fill” 模式）可以削弱攻击而不影响正常使用。

限制与未来工作

该研究聚焦于 开源服务栈；专有系统可能拥有额外的缓解措施或不同的瓶颈。
攻击效果取决于 全局 KV 缓存的大小；极大的缓存可能提升攻击者的成本阈值。
侧信道探测假设攻击者能够读取内存使用统计；某些托管服务会隐藏这些指标。
未来的研究方向包括：自动检测缓存耗尽模式、自适应调度算法在负载下优先保证公平性，以及将威胁模型扩展到具有异构模型规模的多租户环境。

作者

Tianyi Wang
Huawei Fan
Yuanchao Shu
Peng Cheng
Cong Wang

论文信息

arXiv ID: 2602.07878v1
分类: cs.CR, cs.AI
出版日期: 2026年2月8日
PDF: Download PDF

[Paper] 重新思考延迟拒绝服务：攻击 LLM 服务框架，而非模型

概述

关键贡献

方法论

结果与发现

关键要点

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Olaf-World：面向视频世界建模的潜在动作定向

[Paper] 面向可解释的联邦学习：理解差分隐私的影响

[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

[论文] 循环 Transformer 的步级数据归因