[Paper] DSD:一种用于边缘‑云敏捷大模型服务的分布式投机解码方案
发布: (2025年11月27日 GMT+8 02:47)
2 min read
原文: arXiv
Source: arXiv - 2511.21669v1
概览
大型语言模型(LLM)推理常常受到高解码延迟和在异构边缘‑云环境中可扩展性受限的困扰。现有的投机解码(Speculative Decoding,SD)技术能够加速 token 生成,但仍局限于单节点执行。我们提出 DSD,一种分布式投机解码框架,通过协同的草稿‑目标执行将 SD 扩展到多设备部署。
鉴于此前缺乏对该范式的仿真工作,我们首先引入 DSD‑Sim,一个离散事件模拟器,用于捕捉网络、批处理和调度动态。基于 DSD‑Sim 的洞察,我们进一步设计了 自适应窗口控制(Adaptive Window Control,AWC) 策略,动态调整投机窗口大小以优化吞吐量。
在多种工作负载上的实验表明,DSD 相较于现有的 SD 基线实现了最高 1.1× 加速 和 9.7 % 更高的吞吐量,从而实现了在边缘和云端的灵活可扩展 LLM 服务。
作者
- 余丰泽
- 李乐书
- Brad McDanel
- 张赛千
论文信息
- arXiv ID: 2511.21669v1
- 分类: cs.LG, cs.DC
- 发布日期: 2025 年 11 月 27 日
- PDF: Download PDF