[论文] RcLLM:通过超前缀 KV 缓存加速生成式推荐
发布: (2026年5月8日 GMT+8 16:47)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.07443v1
(请提供需要翻译的正文内容,我才能为您完成简体中文翻译。)
Overview
本文介绍了 RcLLM,一种分布式推理引擎,使得使用大型语言模型(LLMs)的生成式推荐能够快速到足以用于实时生产。RcLLM 超越了传统的“前缀‑KV 缓存”技巧,将提示切分为可复用的块,并将其存储在分层、相似度感知的缓存中,从而大幅降低延迟,同时保持推荐质量不变。
关键贡献
- Beyond‑Prefix KV Caching: 一种新颖的缓存方案,能够提取并复用 任意 连续的提示块(用户历史、商品描述等),而不仅限于最初的前缀。
- 分层分布式存储:
- 用户历史缓存 – 体积小,完全复制,实现即时查找。
- 商品目录缓存 – 容量大,跨节点分片,采用相似度感知的放置策略,使相关商品保持在一起。
- 基于亲和性的全局调度器: 动态将推理请求路由到持有最相关缓存块的节点,最大化数据局部性。
- 选择性注意力近似: 对已缓存块跳过冗余的二次注意力计算,并通过轻量校正步骤保持模型输出的忠实度。
- 实证验证: 在生产规模数据集上,RcLLM 的首 token 响应时间(TTFT)比现有最佳前缀缓存系统低 1.31×–9.51×,且推荐准确率几乎不变。
方法论
- Prompt Decomposition: 将每个推荐请求拆分为三个逻辑段落——(a)用户交互历史、(b)候选物品描述、以及(c)生成指令。
- Cache Construction:
- user‑history segment 较小且高度复用,因此在每个推理节点上复制存储。
- item segment 规模庞大(数百万条物品)。先对物品进行嵌入、按相似度聚类,然后分片,使经常一起出现的物品位于同一节点。
- KV‑Cache Retrieval: 当请求到达时,调度器在分布式 KV 存储中查找所需块。缓存块直接插入模型的注意力记忆,绕过这些 token 的昂贵前向传播。
- Selective Attention: 对于缓存块,模型跳过完整的自注意力矩阵(O(n²) 成本),仅在缓存 token 与新 token 的边界上计算一个廉价的“校正”注意力,确保上下文仍被正确整合。
- Global Scheduling: 基于亲和力的路由器监控缓存命中率,并在分片之间迁移热点物品,以保持高局部性,降低跨节点通信。
所有这些都被编排为一个微服务,可以以最小的代码改动嵌入现有的 LLM 服务栈(例如 TensorRT‑LLM、vLLM)。
结果与发现
| 指标 | 基线(前缀缓存) | RcLLM | 加速比 |
|---|---|---|---|
| TTFT(平均) | 120 ms | 13 ms – 92 ms | 1.31× – 9.51× |
| Top‑K 推荐准确率 (HR@10) | 0.742 | 0.739 | ≈ 0.4 % 下降 |
| 缓存命中率(用户历史) | 68 % | 100 %(复制) | – |
| 缓存命中率(商品) | 22 % | 55 %(相似度感知分片) | – |
关键要点
- 延迟: 最大的收益来自于消除对长用户历史和商品文本的重复注意力计算。
- 准确率: 选择性的注意力校正使生成输出保持在基线的噪声范围内。
- 可扩展性: 系统随目录规模线性扩展,因为商品分片可以在不重新洗牌整个缓存的情况下添加。
实际影响
- 实时个性化: 电子商务和流媒体平台现在可以在交互式 UI 体验所需的 100 ms 以下 时间窗口内,提供 LLM 生成的产品或内容推荐。
- 成本效率: 通过复用 KV 块,每次请求的 GPU 计算量大幅下降,降低了云 GPU 集群的推理成本。
- 即插即用部署: RcLLM 的架构兼容现有的服务框架,意味着团队可以在不完全重写推荐流水线的情况下采用它。
- 可扩展性: 块级缓存的思路可以应用于其他基于 LLM 的服务,例如涉及重复上下文的代码补全(项目范围的导入)或拥有长对话历史的聊天机器人。
Source: …
局限性与未来工作
- Cold‑Start Items(冷启动项目): 尚未进行嵌入和分片的新项目会错过缓存,需要承担完整的注意力计算成本,直至它们变热。
- Cache Management Overhead(缓存管理开销): 亲和调度器会增加账务流量;在极高吞吐场景下,这可能成为瓶颈。
- Model‑Specific Tuning(模型特定调优): 选择性注意力校正已针对仅解码器的 Transformer 进行调优;将其迁移到编码器‑解码器或检索增强模型可能需要额外研究。
- Future Directions(未来方向): 作者建议探索层次缓存(例如在短语层面进行缓存)、集成学习式缓存替换策略,以及将系统扩展到多模态推荐(文本 + 图像)。
作者
- Zhan Zhao
- Yuxin Wang
- Amelie Chi Zhou
论文信息
- arXiv ID: 2605.07443v1
- 分类: cs.DC
- 出版时间: 2026年5月8日
- PDF: 下载 PDF