[论文] RcLLM:通过超前缀 KV 缓存加速生成式推荐

发布: (2026年5月8日 GMT+8 16:47)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.07443v1

(请提供需要翻译的正文内容,我才能为您完成简体中文翻译。)

Overview

本文介绍了 RcLLM,一种分布式推理引擎,使得使用大型语言模型(LLMs)的生成式推荐能够快速到足以用于实时生产。RcLLM 超越了传统的“前缀‑KV 缓存”技巧,将提示切分为可复用的块,并将其存储在分层、相似度感知的缓存中,从而大幅降低延迟,同时保持推荐质量不变。

关键贡献

  • Beyond‑Prefix KV Caching: 一种新颖的缓存方案,能够提取并复用 任意 连续的提示块(用户历史、商品描述等),而不仅限于最初的前缀。
  • 分层分布式存储:
    • 用户历史缓存 – 体积小,完全复制,实现即时查找。
    • 商品目录缓存 – 容量大,跨节点分片,采用相似度感知的放置策略,使相关商品保持在一起。
  • 基于亲和性的全局调度器: 动态将推理请求路由到持有最相关缓存块的节点,最大化数据局部性。
  • 选择性注意力近似: 对已缓存块跳过冗余的二次注意力计算,并通过轻量校正步骤保持模型输出的忠实度。
  • 实证验证: 在生产规模数据集上,RcLLM 的首 token 响应时间(TTFT)比现有最佳前缀缓存系统低 1.31×–9.51×,且推荐准确率几乎不变。

方法论

  1. Prompt Decomposition: 将每个推荐请求拆分为三个逻辑段落——(a)用户交互历史、(b)候选物品描述、以及(c)生成指令。
  2. Cache Construction:
    • user‑history segment 较小且高度复用,因此在每个推理节点上复制存储。
    • item segment 规模庞大(数百万条物品)。先对物品进行嵌入、按相似度聚类,然后分片,使经常一起出现的物品位于同一节点。
  3. KV‑Cache Retrieval: 当请求到达时,调度器在分布式 KV 存储中查找所需块。缓存块直接插入模型的注意力记忆,绕过这些 token 的昂贵前向传播。
  4. Selective Attention: 对于缓存块,模型跳过完整的自注意力矩阵(O(n²) 成本),仅在缓存 token 与新 token 的边界上计算一个廉价的“校正”注意力,确保上下文仍被正确整合。
  5. Global Scheduling: 基于亲和力的路由器监控缓存命中率,并在分片之间迁移热点物品,以保持高局部性,降低跨节点通信。

所有这些都被编排为一个微服务,可以以最小的代码改动嵌入现有的 LLM 服务栈(例如 TensorRT‑LLM、vLLM)。

结果与发现

指标基线(前缀缓存)RcLLM加速比
TTFT(平均)120 ms13 ms – 92 ms1.31× – 9.51×
Top‑K 推荐准确率 (HR@10)0.7420.739≈ 0.4 % 下降
缓存命中率(用户历史)68 %100 %(复制)
缓存命中率(商品)22 %55 %(相似度感知分片)

关键要点

  • 延迟: 最大的收益来自于消除对长用户历史和商品文本的重复注意力计算。
  • 准确率: 选择性的注意力校正使生成输出保持在基线的噪声范围内。
  • 可扩展性: 系统随目录规模线性扩展,因为商品分片可以在不重新洗牌整个缓存的情况下添加。

实际影响

  • 实时个性化: 电子商务和流媒体平台现在可以在交互式 UI 体验所需的 100 ms 以下 时间窗口内,提供 LLM 生成的产品或内容推荐。
  • 成本效率: 通过复用 KV 块,每次请求的 GPU 计算量大幅下降,降低了云 GPU 集群的推理成本。
  • 即插即用部署: RcLLM 的架构兼容现有的服务框架,意味着团队可以在不完全重写推荐流水线的情况下采用它。
  • 可扩展性: 块级缓存的思路可以应用于其他基于 LLM 的服务,例如涉及重复上下文的代码补全(项目范围的导入)或拥有长对话历史的聊天机器人。

Source:

局限性与未来工作

  • Cold‑Start Items(冷启动项目): 尚未进行嵌入和分片的新项目会错过缓存,需要承担完整的注意力计算成本,直至它们变热。
  • Cache Management Overhead(缓存管理开销): 亲和调度器会增加账务流量;在极高吞吐场景下,这可能成为瓶颈。
  • Model‑Specific Tuning(模型特定调优): 选择性注意力校正已针对仅解码器的 Transformer 进行调优;将其迁移到编码器‑解码器或检索增强模型可能需要额外研究。
  • Future Directions(未来方向): 作者建议探索层次缓存(例如在短语层面进行缓存)、集成学习式缓存替换策略,以及将系统扩展到多模态推荐(文本 + 图像)。

作者

  • Zhan Zhao
  • Yuxin Wang
  • Amelie Chi Zhou

论文信息

  • arXiv ID: 2605.07443v1
  • 分类: cs.DC
  • 出版时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »