LLM inference

1周前 · ai

通过推测采样加速大型语言模型解码

想象一下，从 large language model 获取答案的速度几乎提升了一倍。研究人员使用一个 small, quick helper，它提前写出几个词，然后再由 big mode…

#large language models #speculative sampling #LLM inference #model decoding #speed optimization
1个月前 · ai

UC San Diego 实验室借助 NVIDIA DGX B200 系统推进生成式 AI 研究

加州大学圣地亚哥分校实验室利用 NVIDIA DGX B200 系统推动生成式 AI 研究 2025 年 12 月 17 日作者 Zoe Kessler https://blogs.nvidia.com/blog/author/zoekessler/

#generative AI #NVIDIA DGX B200 #large language models #LLM inference #UC San Diego #Hao AI Lab #AI hardware
1个月前 · ai

从理论到实践：揭开现代 LLM 中 Key-Value Cache 的神秘面纱

介绍 — 什么是键值缓存以及我们为何需要它？ KV Cache 插图 https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgra...

#key-value cache #LLM inference #transformer optimization #generative AI #performance acceleration #kv cache #AI engineering
1个月前 · ai

[论文] 在高性能计算基础设施上实现自动化动态 AI 推理伸缩：整合 Kubernetes、Slurm 和 vLLM

由于对人工智能（AI）推理的需求日益增长，尤其是在高等教育领域，利用现有基础设施的新颖解决方案正在出现……

#LLM inference #Kubernetes #Slurm #vLLM #HPC
1个月前 · devops

[Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput

为了满足严格的服务水平目标（SLO），当代大型语言模型（LLMs）将预填充（prefill）和解码（decoding）阶段解耦，并将它们放置在不同的 GPU 上……

#LLM inference #dynamic scaling #GPU orchestration #goodput optimization #serving architecture