[Paper] Beluga:一种基于 CXL 的内存架构,用于可扩展且高效的 LLM KVCache 管理

发布: (2025年11月25日 GMT+8 18:51)
6 min read
原文: arXiv

Source: arXiv - 2511.20172v1

概览

大型语言模型(LLM)的参数规模不断增长,而使用长上下文窗口进行推理会对 GPU 内存造成巨大的压力。本文提出了 Beluga,一种基于 CXL 的内存架构,使 GPU 与 CPU 能共享一个巨大的低延迟内存池,用于 KV‑Cache——在推理过程中存放注意力键和值的数据结构。通过摆脱基于 RDMA 的分布式内存,Beluga 在保持编程模型简洁的同时,实现了接近本地内存的速度。

关键贡献

  • CXL 启用的共享内存池:展示了 GPU 如何通过 CXL 交换机执行原生的加载/存储操作,消除了对定制 RDMA 协议的需求。
  • CXL 交换机设计指南:系统性地表征了商用 CXL 交换机的性能,并提炼出构建可扩展内存系统的实用规则。
  • Beluga‑KVCache 系统:实现了利用共享内存池的 KV‑Cache 管理器,在流行的 vLLM 推理引擎中实现了最高 89.6 % 的首 token 时间(TTFT)降低7.35 倍的吞吐提升
  • 原型与评估:在现成硬件上构建了可工作的原型,并相对于最先进的 RDMA 方案验证了延迟/吞吐的提升。

方法论

  1. 硬件平台:作者搭建了一个包含 GPU、CPU 和商用 CXL 交换机的测试平台,连接了一个规模达数十 TB 的大容量 DRAM 池。
  2. 微基准测试:运行一系列延迟和带宽测试,了解 CXL 在不同访问模式(随机 vs. 顺序、大小传输 vs. 小传输)下的行为。
  3. 指南提取:基于测量结果得出规则——例如保持请求大小在 256 KB 以上以摊销交换机开销、批量更新 KV‑Cache 以降低争用、将频繁访问的页面固定以避免页面错误惩罚。
  4. 系统设计:依据这些指南,构建 Beluga‑KVCache,一个将 KV‑Cache 条目直接映射到共享 CXL 内存并向推理引擎提供简易 API 的软件层。
  5. 评估:将 Beluga‑KVCache 与 vLLM(高性能 LLM 服务框架)集成,并在多种模型规模(7B‑65B)和上下文长度(最高 32 K token)下,与基于 RDMA 的分布式内存基线进行对比。

结果与发现

指标RDMA 基线Beluga‑KVCache
TTFT(首 token 延迟)1.00 s(归一化)0.10 s(‑89.6 %)
吞吐量(token/s)7.35×
平均 KV‑Cache 访问延迟~2.3 µs(网络 + CPU)~0.3 µs(接近本地)
可扩展性(GPU 数量)超过 4 GPU 后性能下降(网络饱和)线性扩展至 8 GPU(CXL 带宽足够)

数据表明,将 KV‑Cache 存储迁移到基于 CXL 的内存池可将关键路径延迟降低一个数量级,并显著提升每秒 token 处理率,尤其在缓存主导内存流量的长上下文工作负载中效果更佳。

实际意义

  • LLM SaaS 提供商 可以通过缩短首 token 时间显著降低每次推理的成本,从而提升用户体验并降低云费用。
  • 硬件架构师 获得了一个将 CXL 交换机集成到以 GPU 为中心的 AI 服务器的具体参考设计,便于在不大量预置 HBM 的情况下提供 TB 级“GPU 可访问”内存。
  • 框架开发者(如 PyTorch、TensorFlow、vLLM)可以采用 Beluga‑KVCache API 将 KV‑Cache 处理卸载到共享池,简化内存管理代码并减少对自定义 RDMA 层的依赖。
  • 边缘和本地部署 在无法配备巨量 GPU 内存的情况下,也能通过接入适度的 CXL 内存模块来服务大上下文 LLM,延长现有 GPU 资产的使用寿命。

局限性与未来工作

  • 硬件可获得性:原型依赖的商用 CXL 交换机仍处于早期阶段,生态成熟前的广泛采用可能受限。
  • 缓存一致性:当前设计假设每个 KV‑Cache 段只有单一写入者;若要支持完全一致的多写入者场景,需要额外的协议支持。
  • 软件集成开销:虽然论文在 vLLM 中展示了显著收益,但将 Beluga‑KVCache 集成到其他框架可能需要不小的工程投入。
  • 未来方向:作者建议探索分层 CXL 池(如本地 HBM、局部 DRAM 与远程 CXL 内存的组合)、KV‑Cache 条目的自适应放置策略,以及与即将推出的 CXL 2.0 特性(如内存池化、设备间通信)的更紧密耦合。

作者

  • Xinjun Yang
  • Qingda Hu
  • Junru Li
  • Feifei Li
  • Yuqi Zhou
  • Yicong Zhu
  • Qiuru Lin
  • Jian Dai
  • Yang Kong
  • Jiayu Zhang
  • Guoqiang Xu
  • Qiang Liu

论文信息

  • arXiv ID: 2511.20172v1
  • 分类: cs.DC, cs.AI
  • 发布日期: 2025 年 11 月 25 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »