[Paper] DSD：一种用于边缘‑云敏捷大模型服务的分布式投机解码方案

发布: 2个月前 (2025年11月27日 GMT+8 02:47)

2 分钟阅读

原文: arXiv

Source: arXiv - 2511.21669v1

概览

大型语言模型（LLM）推理常常受到高解码延迟和在异构边缘‑云环境中可扩展性受限的困扰。现有的投机解码（Speculative Decoding，SD）技术能够加速 token 生成，但仍局限于单节点执行。我们提出 DSD，一种分布式投机解码框架，通过协同的草稿‑目标执行将 SD 扩展到多设备部署。

鉴于此前缺乏对该范式的仿真工作，我们首先引入 DSD‑Sim，一个离散事件模拟器，用于捕捉网络、批处理和调度动态。基于 DSD‑Sim 的洞察，我们进一步设计了 自适应窗口控制（Adaptive Window Control，AWC） 策略，动态调整投机窗口大小以优化吞吐量。

在多种工作负载上的实验表明，DSD 相较于现有的 SD 基线实现了最高 1.1× 加速 和 9.7 % 更高的吞吐量，从而实现了在边缘和云端的灵活可扩展 LLM 服务。

作者

余丰泽
李乐书
Brad McDanel
张赛千

论文信息

arXiv ID: 2511.21669v1
分类: cs.LG, cs.DC
发布日期: 2025 年 11 月 27 日
PDF: Download PDF

[Paper] DSD：一种用于边缘‑云敏捷大模型服务的分布式投机解码方案

概览

作者

论文信息

相关文章

[Paper] Aragog：即时模型路由，实现代理工作流的可扩展服务

AI 代理在区块链智能合约中发现 460 万美元的漏洞

Apple AI 负责人因 Siri 挫折辞职

Apple AI 首席因 Siri 失误而退休