[Paper] Beluga：一种基于 CXL 的内存架构，用于可扩展且高效的 LLM KVCache 管理

发布: 2个月前 (2025年11月25日 GMT+8 18:51)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.20172v1

概览

大型语言模型（LLM）的参数规模不断增长，而使用长上下文窗口进行推理会对 GPU 内存造成巨大的压力。本文提出了 Beluga，一种基于 CXL 的内存架构，使 GPU 与 CPU 能共享一个巨大的低延迟内存池，用于 KV‑Cache——在推理过程中存放注意力键和值的数据结构。通过摆脱基于 RDMA 的分布式内存，Beluga 在保持编程模型简洁的同时，实现了接近本地内存的速度。

关键贡献

CXL 启用的共享内存池：展示了 GPU 如何通过 CXL 交换机执行原生的加载/存储操作，消除了对定制 RDMA 协议的需求。
CXL 交换机设计指南：系统性地表征了商用 CXL 交换机的性能，并提炼出构建可扩展内存系统的实用规则。
Beluga‑KVCache 系统：实现了利用共享内存池的 KV‑Cache 管理器，在流行的 vLLM 推理引擎中实现了最高 89.6 % 的首 token 时间（TTFT）降低 和 7.35 倍的吞吐提升。
原型与评估：在现成硬件上构建了可工作的原型，并相对于最先进的 RDMA 方案验证了延迟/吞吐的提升。

方法论

硬件平台：作者搭建了一个包含 GPU、CPU 和商用 CXL 交换机的测试平台，连接了一个规模达数十 TB 的大容量 DRAM 池。
微基准测试：运行一系列延迟和带宽测试，了解 CXL 在不同访问模式（随机 vs. 顺序、大小传输 vs. 小传输）下的行为。
指南提取：基于测量结果得出规则——例如保持请求大小在 256 KB 以上以摊销交换机开销、批量更新 KV‑Cache 以降低争用、将频繁访问的页面固定以避免页面错误惩罚。
系统设计：依据这些指南，构建 Beluga‑KVCache，一个将 KV‑Cache 条目直接映射到共享 CXL 内存并向推理引擎提供简易 API 的软件层。
评估：将 Beluga‑KVCache 与 vLLM（高性能 LLM 服务框架）集成，并在多种模型规模（7B‑65B）和上下文长度（最高 32 K token）下，与基于 RDMA 的分布式内存基线进行对比。

结果与发现

指标	RDMA 基线	Beluga‑KVCache
TTFT（首 token 延迟）	1.00 s（归一化）	0.10 s（‑89.6 %）
吞吐量（token/s）	1×	7.35×
平均 KV‑Cache 访问延迟	~2.3 µs（网络 + CPU）	~0.3 µs（接近本地）
可扩展性（GPU 数量）	超过 4 GPU 后性能下降（网络饱和）	线性扩展至 8 GPU（CXL 带宽足够）

数据表明，将 KV‑Cache 存储迁移到基于 CXL 的内存池可将关键路径延迟降低一个数量级，并显著提升每秒 token 处理率，尤其在缓存主导内存流量的长上下文工作负载中效果更佳。

实际意义

LLM SaaS 提供商 可以通过缩短首 token 时间显著降低每次推理的成本，从而提升用户体验并降低云费用。
硬件架构师 获得了一个将 CXL 交换机集成到以 GPU 为中心的 AI 服务器的具体参考设计，便于在不大量预置 HBM 的情况下提供 TB 级“GPU 可访问”内存。
框架开发者（如 PyTorch、TensorFlow、vLLM）可以采用 Beluga‑KVCache API 将 KV‑Cache 处理卸载到共享池，简化内存管理代码并减少对自定义 RDMA 层的依赖。
边缘和本地部署 在无法配备巨量 GPU 内存的情况下，也能通过接入适度的 CXL 内存模块来服务大上下文 LLM，延长现有 GPU 资产的使用寿命。

局限性与未来工作

硬件可获得性：原型依赖的商用 CXL 交换机仍处于早期阶段，生态成熟前的广泛采用可能受限。
缓存一致性：当前设计假设每个 KV‑Cache 段只有单一写入者；若要支持完全一致的多写入者场景，需要额外的协议支持。
软件集成开销：虽然论文在 vLLM 中展示了显著收益，但将 Beluga‑KVCache 集成到其他框架可能需要不小的工程投入。
未来方向：作者建议探索分层 CXL 池（如本地 HBM、局部 DRAM 与远程 CXL 内存的组合）、KV‑Cache 条目的自适应放置策略，以及与即将推出的 CXL 2.0 特性（如内存池化、设备间通信）的更紧密耦合。

作者

Xinjun Yang
Qingda Hu
Junru Li
Feifei Li
Yuqi Zhou
Yicong Zhu
Qiuru Lin
Jian Dai
Yang Kong
Jiayu Zhang
Guoqiang Xu
Qiang Liu

论文信息

arXiv ID: 2511.20172v1
分类: cs.DC, cs.AI
发布日期: 2025 年 11 月 25 日
PDF: Download PDF

[Paper] Beluga：一种基于 CXL 的内存架构，用于可扩展且高效的 LLM KVCache 管理

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

阿谀奉承是第一个 LLM ‘暗黑模式’

为什么 AI Alignment 从更好的评估开始

[Paper] 逃离验证器：通过示例学习推理

[Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果