[Paper] TokenScale:及时且精准的自动扩缩容,适用于分离式 LLM 服务的 Token Velocity
发布: (2025年12月3日 GMT+8 11:45)
5 min read
原文: arXiv
Source: arXiv - 2512.03416v1
概览
本文提出了 TokenScale,一种面向下一代 “prefill‑decode” (PD) 解耦服务的大语言模型(LLM)自动伸缩框架。通过引入前瞻性指标 Token Velocity 和灵活的硬件原语 Convertible Decoders,TokenScale 能够比现有方案更快地响应流量突发,显著降低延迟违例并节省计算成本。
关键贡献
- Token Velocity 指标 – 一个统一的细粒度指标,捕捉 prefill、网络和 decode 各阶段的工作量,充当过载的早期预警信号。
- Convertible Decoders – 一种硬件感知的设计,使得解码 GPU 在流量高峰时能够临时承担 prefill 工作,消除新 prefill 节点的预热延迟。
- 预测式自动伸缩策略 – 将 Token Velocity 与轻量级控制器结合,实现主动而非被动的资源伸缩。
- 全面评估 – 在 GPU 集群上的真实生产轨迹实验显示,SLO 合规率从 50‑88 % 提升至 80‑96 %,相较于最先进系统(DistServe、BlitzScale、AIBrix)成本降低 4‑14 %。
方法论
- 指标设计 – 作者对 PD 流水线进行仪表化,测量每秒进入各阶段的 token 数量。该 “token velocity” 反映真实的处理压力,区别于 GPU 利用率在请求突发时的滞后。
- 系统架构 – 解码 GPU 配备轻量级 “转换” 层,能够在需要时从纯解码模式切换到能够处理 prefill 批次的混合模式。
- 自动伸缩控制器 – 一个基于阈值的简单控制器监控 token velocity。当速度超过高水位线时,首先激活 convertible decoders;若压力持续,则启动额外的 prefill 工作节点。缩减则遵循低水位线并设有冷却期,以避免抖动。
- 实验设置 – 团队在 16 GPU 集群上回放生产请求轨迹(包括突发流量模式),基线包括 DistServe、BlitzScale 和 AIBrix,均使用其推荐的策略。收集的指标包括 TTFT、TPOT、SLO 达成率以及总 GPU‑hour 成本。
结果与发现
| 指标 | DistServe / BlitzScale / AIBrix | TokenScale |
|---|---|---|
| SLO 达成率 (TTFT + TPOT) | 50 % – 88 % | 80 % – 96 % |
| 平均 TTFT | 1.8 s | 1.2 s |
| 平均 TPOT | 0.45 s/token | 0.33 s/token |
| GPU 小时成本 | 基准 | ‑4 % 到 ‑14 % |
- Token Velocity 在毫秒级内对突发作出响应,几乎即时触发 convertible decoders。
- Convertible decoders 能在不启动新 prefill 节点的情况下吸收约 30 % 的峰值流量。
- 主动伸缩降低了队列堆积,直接转化为更低的 TTFT 和 TPOT。
实际意义
- 降低终端用户延迟 – 提供 LLM API 的服务(如聊天助手、代码生成工具)能够满足更严格的延迟 SLA,提升用户体验。
- 成本高效的伸缩 – 云运营商可以减少空闲的 prefill 实例,利用更为充足的解码 GPU 处理突发,从而降低整体 GPU‑hour 开支。
- 运维简化 – Token Velocity 易于仪表化,无需深度硬件计数器,适用于异构集群(NVIDIA、AMD 甚至新兴加速器架构)。
- 可移植性 – Convertible decoder 概念可以作为软件 shim 实现在现有推理运行时(如 vLLM、TensorRT‑LLM)上,支持渐进式采纳而无需硬件重新设计。
局限性与未来工作
- 硬件依赖 – Convertible decoders 假设解码 GPU 有足够的空闲算力来处理 prefill 工作;在解码负载已非常高的情况下,收益可能下降。
- 指标敏感性 – Token Velocity 阈值需针对模型规模和批次模式进行调优,当前尚未提供自动校准机制。
- 多租户场景 – 本文聚焦单租户工作负载;将该方法扩展到具备公平性保证的多租户集群仍是未解挑战。
- 未来方向 – 作者计划探索自适应阈值学习(如强化学习),并将 token 级别的优先级调度引入混合优先级请求中。
作者
- Ruiqi Lai
- Hongrui Liu
- Chengzhi Lu
- Zonghao Liu
- Siyu Cao
- Siyang Shao
- Yixin Zhang
- Luo Mai
- Dmitrii Ustiugov
论文信息
- arXiv ID: 2512.03416v1
- 分类: cs.DC
- 发布时间: 2025 年 12 月 3 日
- PDF: Download PDF