[Paper] Beluga:一种基于 CXL 的内存架构,用于可扩展且高效的 LLM KVCache 管理
发布: (2025年11月25日 GMT+8 18:51)
6 min read
原文: arXiv
Source: arXiv - 2511.20172v1
概览
大型语言模型(LLM)的参数规模不断增长,而使用长上下文窗口进行推理会对 GPU 内存造成巨大的压力。本文提出了 Beluga,一种基于 CXL 的内存架构,使 GPU 与 CPU 能共享一个巨大的低延迟内存池,用于 KV‑Cache——在推理过程中存放注意力键和值的数据结构。通过摆脱基于 RDMA 的分布式内存,Beluga 在保持编程模型简洁的同时,实现了接近本地内存的速度。
关键贡献
- CXL 启用的共享内存池:展示了 GPU 如何通过 CXL 交换机执行原生的加载/存储操作,消除了对定制 RDMA 协议的需求。
- CXL 交换机设计指南:系统性地表征了商用 CXL 交换机的性能,并提炼出构建可扩展内存系统的实用规则。
- Beluga‑KVCache 系统:实现了利用共享内存池的 KV‑Cache 管理器,在流行的 vLLM 推理引擎中实现了最高 89.6 % 的首 token 时间(TTFT)降低 和 7.35 倍的吞吐提升。
- 原型与评估:在现成硬件上构建了可工作的原型,并相对于最先进的 RDMA 方案验证了延迟/吞吐的提升。
方法论
- 硬件平台:作者搭建了一个包含 GPU、CPU 和商用 CXL 交换机的测试平台,连接了一个规模达数十 TB 的大容量 DRAM 池。
- 微基准测试:运行一系列延迟和带宽测试,了解 CXL 在不同访问模式(随机 vs. 顺序、大小传输 vs. 小传输)下的行为。
- 指南提取:基于测量结果得出规则——例如保持请求大小在 256 KB 以上以摊销交换机开销、批量更新 KV‑Cache 以降低争用、将频繁访问的页面固定以避免页面错误惩罚。
- 系统设计:依据这些指南,构建 Beluga‑KVCache,一个将 KV‑Cache 条目直接映射到共享 CXL 内存并向推理引擎提供简易 API 的软件层。
- 评估:将 Beluga‑KVCache 与 vLLM(高性能 LLM 服务框架)集成,并在多种模型规模(7B‑65B)和上下文长度(最高 32 K token)下,与基于 RDMA 的分布式内存基线进行对比。
结果与发现
| 指标 | RDMA 基线 | Beluga‑KVCache |
|---|---|---|
| TTFT(首 token 延迟) | 1.00 s(归一化) | 0.10 s(‑89.6 %) |
| 吞吐量(token/s) | 1× | 7.35× |
| 平均 KV‑Cache 访问延迟 | ~2.3 µs(网络 + CPU) | ~0.3 µs(接近本地) |
| 可扩展性(GPU 数量) | 超过 4 GPU 后性能下降(网络饱和) | 线性扩展至 8 GPU(CXL 带宽足够) |
数据表明,将 KV‑Cache 存储迁移到基于 CXL 的内存池可将关键路径延迟降低一个数量级,并显著提升每秒 token 处理率,尤其在缓存主导内存流量的长上下文工作负载中效果更佳。
实际意义
- LLM SaaS 提供商 可以通过缩短首 token 时间显著降低每次推理的成本,从而提升用户体验并降低云费用。
- 硬件架构师 获得了一个将 CXL 交换机集成到以 GPU 为中心的 AI 服务器的具体参考设计,便于在不大量预置 HBM 的情况下提供 TB 级“GPU 可访问”内存。
- 框架开发者(如 PyTorch、TensorFlow、vLLM)可以采用 Beluga‑KVCache API 将 KV‑Cache 处理卸载到共享池,简化内存管理代码并减少对自定义 RDMA 层的依赖。
- 边缘和本地部署 在无法配备巨量 GPU 内存的情况下,也能通过接入适度的 CXL 内存模块来服务大上下文 LLM,延长现有 GPU 资产的使用寿命。
局限性与未来工作
- 硬件可获得性:原型依赖的商用 CXL 交换机仍处于早期阶段,生态成熟前的广泛采用可能受限。
- 缓存一致性:当前设计假设每个 KV‑Cache 段只有单一写入者;若要支持完全一致的多写入者场景,需要额外的协议支持。
- 软件集成开销:虽然论文在 vLLM 中展示了显著收益,但将 Beluga‑KVCache 集成到其他框架可能需要不小的工程投入。
- 未来方向:作者建议探索分层 CXL 池(如本地 HBM、局部 DRAM 与远程 CXL 内存的组合)、KV‑Cache 条目的自适应放置策略,以及与即将推出的 CXL 2.0 特性(如内存池化、设备间通信)的更紧密耦合。
作者
- Xinjun Yang
- Qingda Hu
- Junru Li
- Feifei Li
- Yuqi Zhou
- Yicong Zhu
- Qiuru Lin
- Jian Dai
- Yang Kong
- Jiayu Zhang
- Guoqiang Xu
- Qiang Liu
论文信息
- arXiv ID: 2511.20172v1
- 分类: cs.DC, cs.AI
- 发布日期: 2025 年 11 月 25 日
- PDF: Download PDF