[Paper] 驯服内存占用危机:生产环境Diffusion LLM服务的系统设计

发布: (2025年12月19日 GMT+8 05:18)
6 min read
原文: arXiv

Source: arXiv - 2512.17077v1

Overview

扩散大型语言模型(dLLMs)相较于传统的自回归模型,承诺更快的并行文本生成,但在大规模部署时会遭遇“内存占用危机”。本文介绍了 dLLM‑Serve,一个面向生产的服务系统,能够抑制扩散推理过程中的内存峰值和不均衡的计算带宽需求,在消费级和服务器级 GPU 上实现更高的吞吐量和更低的尾部延迟。

关键贡献

  • Memory‑aware tensor decompositionLogit‑Aware Activation Budgeting 将庞大且短暂的 logits 张量拆分为更小的块,以便在 GPU 内存中轻松容纳。
  • Phase‑aware schedulingPhase‑Multiplexed Scheduler 在多个请求之间交错计算密集的“Refresh”阶段和带宽受限的“Reuse”阶段,实现资源使用的平滑化。
  • Sparse attention redesignHead‑Centric Sparse Attention 将逻辑稀疏性(哪些头关注哪些 token)与物理内存布局分离,从而实现高效的存储和检索。
  • End‑to‑end system prototype – 将上述三项技术整合到统一的服务栈 (dLLM‑Serve) 中,并发布代码以保证可复现性。
  • Comprehensive evaluation – 在 RTX 4090 和 NVIDIA L40S GPU 上的真实工作负载(LiveBench、Burst、OSC)中展示了 1.6×–1.8× 的吞吐提升以及最高 4× 的尾部延迟降低。

方法论

  1. Profiling the diffusion pipeline – 作者对参考 dLLM 实现进行仪器化,以暴露两个独立阶段:
    • Refresh:重新计算扩散状态(计算受限)。
    • Reuse:复用先前计算的激活以生成下一个 token(带宽受限)。
  2. Logit‑Aware Activation Budgeting – 与其为整个 logits 张量分配单一的整体缓冲区,系统会预测每个 head 的峰值激活大小,并动态划分内存,在阶段结束后立即释放缓冲区。
  3. Phase‑Multiplexed Scheduler – 请求按阶段排队。调度器先打包多个 “Refresh” 任务,再跟随一批 “Reuse” 任务,确保 GPU 的计算单元保持忙碌,同时内存总线不被饱和。
  4. Head‑Centric Sparse Attention – 注意力矩阵按 head 存储,并使用紧凑索引将逻辑稀疏模式映射到物理内存块,避免生成完整的稠密张量。
  5. Implementation – 基于 PyTorch/CUDA 构建,使用自定义 kernel 实现稀疏注意力,并配备轻量级运行时来协调相位复用。

结果与发现

GPU工作负载吞吐量(tokens / s)相对于基线的加速尾部延迟(95百分位)
RTX 4090LiveBench1.81×1.81×↓ ≈ 4×
RTX 4090Burst1.73×1.73×↓ ≈ 3.8×
L40SOSC1.60×1.60×↓ ≈ 4×
  • 内存使用 平均下降约 30 %,得益于激活预算机制。
  • GPU 利用率 在所有阶段均保持在 85 % 以上,而基线在 Refresh 阶段只有 30 %,在 Reuse 阶段约 70 %。
  • 生成质量(BLEU / ROUGE)与基线在统计上无显著差异,证明稀疏化技巧并未降低模型输出质量。

实际影响

  • 成本效益的扩展 – 开发者可以在更便宜的消费级 GPU(RTX 4090)上运行 dLLM,获得服务器级性能,降低云费用。
  • 更高的并发性 – 相位复用让单个 GPU 能够服务更多的聊天或补全请求,避免 OOM 错误。
  • 部署简化 – 内存预算逻辑抽象了低层张量管理,使得将 dLLM 集成到现有推理堆栈(如 Triton、vLLM)更容易。
  • 实时应用 – 显著的尾部延迟降低为对延迟敏感的使用场景打开大门,例如交互式编码助手或实时翻译。

限制与未来工作

  • 硬件特定性 – 优化针对 NVIDIA GPU 进行调优;迁移到 AMD 或专用 AI 加速器将需要额外的内核工作。
  • 模型无关性 – 系统假设基于扩散的生成调度;将其适配到混合模型(例如,扩散 + 自回归微调)并非易事。
  • 动态工作负载 – 虽然调度器能够很好地处理静态阶段模式,但高度不规则的请求模式(例如,可变的 token 长度)仍可能导致打包次优。
  • 未来方向 – 将以头为中心的稀疏性扩展到多 GPU 分片,通过强化学习自动化激活预算,并探索编译器层面对扩散特定内核的支持。

作者

  • Jiakun Fan
  • Yanglin Zhang
  • Xiangchen Li
  • Dimitrios S. Nikolopoulos

论文信息

  • arXiv ID: 2512.17077v1
  • 分类: cs.DC
  • 出版日期: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[论文] HEAL 数据平台

目标:本项目的目标是开发一个基于云的联邦系统,作为对在 … 生成的数据进行搜索、发现和分析的单一入口。