[Paper] TokenScale：及时且精准的自动扩缩容，适用于分离式 LLM 服务的 Token Velocity

发布: 2个月前 (2025年12月3日 GMT+8 11:45)

5 分钟阅读

原文: arXiv

Source: arXiv - 2512.03416v1

概览

本文提出了 TokenScale，一种面向下一代 “prefill‑decode” (PD) 解耦服务的大语言模型（LLM）自动伸缩框架。通过引入前瞻性指标 Token Velocity 和灵活的硬件原语 Convertible Decoders，TokenScale 能够比现有方案更快地响应流量突发，显著降低延迟违例并节省计算成本。

关键贡献

Token Velocity 指标 – 一个统一的细粒度指标，捕捉 prefill、网络和 decode 各阶段的工作量，充当过载的早期预警信号。
Convertible Decoders – 一种硬件感知的设计，使得解码 GPU 在流量高峰时能够临时承担 prefill 工作，消除新 prefill 节点的预热延迟。
预测式自动伸缩策略 – 将 Token Velocity 与轻量级控制器结合，实现主动而非被动的资源伸缩。
全面评估 – 在 GPU 集群上的真实生产轨迹实验显示，SLO 合规率从 50‑88 % 提升至 80‑96 %，相较于最先进系统（DistServe、BlitzScale、AIBrix）成本降低 4‑14 %。

方法论

指标设计 – 作者对 PD 流水线进行仪表化，测量每秒进入各阶段的 token 数量。该 “token velocity” 反映真实的处理压力，区别于 GPU 利用率在请求突发时的滞后。
系统架构 – 解码 GPU 配备轻量级 “转换” 层，能够在需要时从纯解码模式切换到能够处理 prefill 批次的混合模式。
自动伸缩控制器 – 一个基于阈值的简单控制器监控 token velocity。当速度超过高水位线时，首先激活 convertible decoders；若压力持续，则启动额外的 prefill 工作节点。缩减则遵循低水位线并设有冷却期，以避免抖动。
实验设置 – 团队在 16 GPU 集群上回放生产请求轨迹（包括突发流量模式），基线包括 DistServe、BlitzScale 和 AIBrix，均使用其推荐的策略。收集的指标包括 TTFT、TPOT、SLO 达成率以及总 GPU‑hour 成本。

结果与发现

指标	DistServe / BlitzScale / AIBrix	TokenScale
SLO 达成率 (TTFT + TPOT)	50 % – 88 %	80 % – 96 %
平均 TTFT	1.8 s	1.2 s
平均 TPOT	0.45 s/token	0.33 s/token
GPU 小时成本	基准	‑4 % 到 ‑14 %

Token Velocity 在毫秒级内对突发作出响应，几乎即时触发 convertible decoders。
Convertible decoders 能在不启动新 prefill 节点的情况下吸收约 30 % 的峰值流量。
主动伸缩降低了队列堆积，直接转化为更低的 TTFT 和 TPOT。

实际意义

降低终端用户延迟 – 提供 LLM API 的服务（如聊天助手、代码生成工具）能够满足更严格的延迟 SLA，提升用户体验。
成本高效的伸缩 – 云运营商可以减少空闲的 prefill 实例，利用更为充足的解码 GPU 处理突发，从而降低整体 GPU‑hour 开支。
运维简化 – Token Velocity 易于仪表化，无需深度硬件计数器，适用于异构集群（NVIDIA、AMD 甚至新兴加速器架构）。
可移植性 – Convertible decoder 概念可以作为软件 shim 实现在现有推理运行时（如 vLLM、TensorRT‑LLM）上，支持渐进式采纳而无需硬件重新设计。

局限性与未来工作

硬件依赖 – Convertible decoders 假设解码 GPU 有足够的空闲算力来处理 prefill 工作；在解码负载已非常高的情况下，收益可能下降。
指标敏感性 – Token Velocity 阈值需针对模型规模和批次模式进行调优，当前尚未提供自动校准机制。
多租户场景 – 本文聚焦单租户工作负载；将该方法扩展到具备公平性保证的多租户集群仍是未解挑战。
未来方向 – 作者计划探索自适应阈值学习（如强化学习），并将 token 级别的优先级调度引入混合优先级请求中。

作者

Ruiqi Lai
Hongrui Liu
Chengzhi Lu
Zonghao Liu
Siyu Cao
Siyang Shao
Yixin Zhang
Luo Mai
Dmitrii Ustiugov

论文信息

arXiv ID: 2512.03416v1
分类: cs.DC
发布时间: 2025 年 12 月 3 日
PDF: Download PDF

[Paper] TokenScale：及时且精准的自动扩缩容，适用于分离式 LLM 服务的 Token Velocity

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Metronome：差异化延迟调度用于 Serverless Functions

[Paper] 公交车上安装的 Edge 服务器可行吗？

[Paper] 编译器支持的低精度和 AoS-SoA 转换用于异构硬件

[Paper] FedGMR：在异步和模型异构性下的渐进模型恢复联邦学习