[Paper] DSD:一种用于边缘‑云敏捷大模型服务的分布式投机解码方案

发布: (2025年11月27日 GMT+8 02:47)
2 min read
原文: arXiv

Source: arXiv - 2511.21669v1

概览

大型语言模型(LLM)推理常常受到高解码延迟和在异构边缘‑云环境中可扩展性受限的困扰。现有的投机解码(Speculative Decoding,SD)技术能够加速 token 生成,但仍局限于单节点执行。我们提出 DSD,一种分布式投机解码框架,通过协同的草稿‑目标执行将 SD 扩展到多设备部署。

鉴于此前缺乏对该范式的仿真工作,我们首先引入 DSD‑Sim,一个离散事件模拟器,用于捕捉网络、批处理和调度动态。基于 DSD‑Sim 的洞察,我们进一步设计了 自适应窗口控制(Adaptive Window Control,AWC) 策略,动态调整投机窗口大小以优化吞吐量。

在多种工作负载上的实验表明,DSD 相较于现有的 SD 基线实现了最高 1.1× 加速9.7 % 更高的吞吐量,从而实现了在边缘和云端的灵活可扩展 LLM 服务。

作者

  • 余丰泽
  • 李乐书
  • Brad McDanel
  • 张赛千

论文信息

  • arXiv ID: 2511.21669v1
  • 分类: cs.LG, cs.DC
  • 发布日期: 2025 年 11 月 27 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

ChatGPT 正面临红色警报

大约三年多前,OpenAI把整个科技行业搅得一团乱。ChatGPT 推出时,即使被标榜为“low-key research preview”,它……