[Paper] TokenScale:及时且精准的自动扩缩容,适用于分离式 LLM 服务的 Token Velocity

发布: (2025年12月3日 GMT+8 11:45)
5 min read
原文: arXiv

Source: arXiv - 2512.03416v1

概览

本文提出了 TokenScale,一种面向下一代 “prefill‑decode” (PD) 解耦服务的大语言模型(LLM)自动伸缩框架。通过引入前瞻性指标 Token Velocity 和灵活的硬件原语 Convertible Decoders,TokenScale 能够比现有方案更快地响应流量突发,显著降低延迟违例并节省计算成本。

关键贡献

  • Token Velocity 指标 – 一个统一的细粒度指标,捕捉 prefill、网络和 decode 各阶段的工作量,充当过载的早期预警信号。
  • Convertible Decoders – 一种硬件感知的设计,使得解码 GPU 在流量高峰时能够临时承担 prefill 工作,消除新 prefill 节点的预热延迟。
  • 预测式自动伸缩策略 – 将 Token Velocity 与轻量级控制器结合,实现主动而非被动的资源伸缩。
  • 全面评估 – 在 GPU 集群上的真实生产轨迹实验显示,SLO 合规率从 50‑88 % 提升至 80‑96 %,相较于最先进系统(DistServe、BlitzScale、AIBrix)成本降低 4‑14 %。

方法论

  1. 指标设计 – 作者对 PD 流水线进行仪表化,测量每秒进入各阶段的 token 数量。该 “token velocity” 反映真实的处理压力,区别于 GPU 利用率在请求突发时的滞后。
  2. 系统架构 – 解码 GPU 配备轻量级 “转换” 层,能够在需要时从纯解码模式切换到能够处理 prefill 批次的混合模式。
  3. 自动伸缩控制器 – 一个基于阈值的简单控制器监控 token velocity。当速度超过高水位线时,首先激活 convertible decoders;若压力持续,则启动额外的 prefill 工作节点。缩减则遵循低水位线并设有冷却期,以避免抖动。
  4. 实验设置 – 团队在 16 GPU 集群上回放生产请求轨迹(包括突发流量模式),基线包括 DistServe、BlitzScale 和 AIBrix,均使用其推荐的策略。收集的指标包括 TTFT、TPOT、SLO 达成率以及总 GPU‑hour 成本。

结果与发现

指标DistServe / BlitzScale / AIBrixTokenScale
SLO 达成率 (TTFT + TPOT)50 % – 88 %80 % – 96 %
平均 TTFT1.8 s1.2 s
平均 TPOT0.45 s/token0.33 s/token
GPU 小时成本基准‑4 % 到 ‑14 %
  • Token Velocity 在毫秒级内对突发作出响应,几乎即时触发 convertible decoders。
  • Convertible decoders 能在不启动新 prefill 节点的情况下吸收约 30 % 的峰值流量。
  • 主动伸缩降低了队列堆积,直接转化为更低的 TTFT 和 TPOT。

实际意义

  • 降低终端用户延迟 – 提供 LLM API 的服务(如聊天助手、代码生成工具)能够满足更严格的延迟 SLA,提升用户体验。
  • 成本高效的伸缩 – 云运营商可以减少空闲的 prefill 实例,利用更为充足的解码 GPU 处理突发,从而降低整体 GPU‑hour 开支。
  • 运维简化 – Token Velocity 易于仪表化,无需深度硬件计数器,适用于异构集群(NVIDIA、AMD 甚至新兴加速器架构)。
  • 可移植性 – Convertible decoder 概念可以作为软件 shim 实现在现有推理运行时(如 vLLM、TensorRT‑LLM)上,支持渐进式采纳而无需硬件重新设计。

局限性与未来工作

  • 硬件依赖 – Convertible decoders 假设解码 GPU 有足够的空闲算力来处理 prefill 工作;在解码负载已非常高的情况下,收益可能下降。
  • 指标敏感性 – Token Velocity 阈值需针对模型规模和批次模式进行调优,当前尚未提供自动校准机制。
  • 多租户场景 – 本文聚焦单租户工作负载;将该方法扩展到具备公平性保证的多租户集群仍是未解挑战。
  • 未来方向 – 作者计划探索自适应阈值学习(如强化学习),并将 token 级别的优先级调度引入混合优先级请求中。

作者

  • Ruiqi Lai
  • Hongrui Liu
  • Chengzhi Lu
  • Zonghao Liu
  • Siyu Cao
  • Siyang Shao
  • Yixin Zhang
  • Luo Mai
  • Dmitrii Ustiugov

论文信息

  • arXiv ID: 2512.03416v1
  • 分类: cs.DC
  • 发布时间: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »