[Paper] 驯服内存占用危机：生产环境Diffusion LLM服务的系统设计

发布: 1个月前 (2025年12月19日 GMT+8 05:18)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.17077v1

Overview

扩散大型语言模型（dLLMs）相较于传统的自回归模型，承诺更快的并行文本生成，但在大规模部署时会遭遇“内存占用危机”。本文介绍了 dLLM‑Serve，一个面向生产的服务系统，能够抑制扩散推理过程中的内存峰值和不均衡的计算带宽需求，在消费级和服务器级 GPU 上实现更高的吞吐量和更低的尾部延迟。

关键贡献

Memory‑aware tensor decomposition – Logit‑Aware Activation Budgeting 将庞大且短暂的 logits 张量拆分为更小的块，以便在 GPU 内存中轻松容纳。
Phase‑aware scheduling – Phase‑Multiplexed Scheduler 在多个请求之间交错计算密集的“Refresh”阶段和带宽受限的“Reuse”阶段，实现资源使用的平滑化。
Sparse attention redesign – Head‑Centric Sparse Attention 将逻辑稀疏性（哪些头关注哪些 token）与物理内存布局分离，从而实现高效的存储和检索。
End‑to‑end system prototype – 将上述三项技术整合到统一的服务栈 (dLLM‑Serve) 中，并发布代码以保证可复现性。
Comprehensive evaluation – 在 RTX 4090 和 NVIDIA L40S GPU 上的真实工作负载（LiveBench、Burst、OSC）中展示了 1.6×–1.8× 的吞吐提升以及最高 4× 的尾部延迟降低。

方法论

Profiling the diffusion pipeline – 作者对参考 dLLM 实现进行仪器化，以暴露两个独立阶段：
- Refresh：重新计算扩散状态（计算受限）。
- Reuse：复用先前计算的激活以生成下一个 token（带宽受限）。
Logit‑Aware Activation Budgeting – 与其为整个 logits 张量分配单一的整体缓冲区，系统会预测每个 head 的峰值激活大小，并动态划分内存，在阶段结束后立即释放缓冲区。
Phase‑Multiplexed Scheduler – 请求按阶段排队。调度器先打包多个 “Refresh” 任务，再跟随一批 “Reuse” 任务，确保 GPU 的计算单元保持忙碌，同时内存总线不被饱和。
Head‑Centric Sparse Attention – 注意力矩阵按 head 存储，并使用紧凑索引将逻辑稀疏模式映射到物理内存块，避免生成完整的稠密张量。
Implementation – 基于 PyTorch/CUDA 构建，使用自定义 kernel 实现稀疏注意力，并配备轻量级运行时来协调相位复用。

结果与发现

GPU	工作负载	吞吐量（tokens / s）	相对于基线的加速	尾部延迟（95百分位）
RTX 4090	LiveBench	1.81×	1.81×	↓ ≈ 4×
RTX 4090	Burst	1.73×	1.73×	↓ ≈ 3.8×
L40S	OSC	1.60×	1.60×	↓ ≈ 4×

内存使用 平均下降约 30 %，得益于激活预算机制。
GPU 利用率 在所有阶段均保持在 85 % 以上，而基线在 Refresh 阶段只有 30 %，在 Reuse 阶段约 70 %。
生成质量（BLEU / ROUGE）与基线在统计上无显著差异，证明稀疏化技巧并未降低模型输出质量。

实际影响

成本效益的扩展 – 开发者可以在更便宜的消费级 GPU（RTX 4090）上运行 dLLM，获得服务器级性能，降低云费用。
更高的并发性 – 相位复用让单个 GPU 能够服务更多的聊天或补全请求，避免 OOM 错误。
部署简化 – 内存预算逻辑抽象了低层张量管理，使得将 dLLM 集成到现有推理堆栈（如 Triton、vLLM）更容易。
实时应用 – 显著的尾部延迟降低为对延迟敏感的使用场景打开大门，例如交互式编码助手或实时翻译。

限制与未来工作

硬件特定性 – 优化针对 NVIDIA GPU 进行调优；迁移到 AMD 或专用 AI 加速器将需要额外的内核工作。
模型无关性 – 系统假设基于扩散的生成调度；将其适配到混合模型（例如，扩散 + 自回归微调）并非易事。
动态工作负载 – 虽然调度器能够很好地处理静态阶段模式，但高度不规则的请求模式（例如，可变的 token 长度）仍可能导致打包次优。
未来方向 – 将以头为中心的稀疏性扩展到多 GPU 分片，通过强化学习自动化激活预算，并探索编译器层面对扩散特定内核的支持。

作者

Jiakun Fan
Yanglin Zhang
Xiangchen Li
Dimitrios S. Nikolopoulos

论文信息

arXiv ID: 2512.17077v1
分类: cs.DC
出版日期: 2025年12月18日
PDF: 下载 PDF

[Paper] 驯服内存占用危机：生产环境Diffusion LLM服务的系统设计

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 在适度磁普朗特数下星系小尺度发电机的渐近行为

[Paper] Torrent：一种用于高效灵活点对多点数据移动的分布式 DMA

[论文] HEAL 数据平台

[Paper] 民主化可扩展云应用：流式数据流上的事务性有状态函数