[论文] RcLLM：通过超前缀 KV 缓存加速生成式推荐

发布: 3天前 (2026年5月8日 GMT+8 16:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.07443v1

（请提供需要翻译的正文内容，我才能为您完成简体中文翻译。）

Overview

本文介绍了 RcLLM，一种分布式推理引擎，使得使用大型语言模型（LLMs）的生成式推荐能够快速到足以用于实时生产。RcLLM 超越了传统的“前缀‑KV 缓存”技巧，将提示切分为可复用的块，并将其存储在分层、相似度感知的缓存中，从而大幅降低延迟，同时保持推荐质量不变。

Beyond‑Prefix KV Caching: 一种新颖的缓存方案，能够提取并复用任意连续的提示块（用户历史、商品描述等），而不仅限于最初的前缀。
分层分布式存储:
- 用户历史缓存 – 体积小，完全复制，实现即时查找。
- 商品目录缓存 – 容量大，跨节点分片，采用相似度感知的放置策略，使相关商品保持在一起。
基于亲和性的全局调度器: 动态将推理请求路由到持有最相关缓存块的节点，最大化数据局部性。
选择性注意力近似: 对已缓存块跳过冗余的二次注意力计算，并通过轻量校正步骤保持模型输出的忠实度。
实证验证: 在生产规模数据集上，RcLLM 的首 token 响应时间（TTFT）比现有最佳前缀缓存系统低 1.31×–9.51×，且推荐准确率几乎不变。

Prompt Decomposition: 将每个推荐请求拆分为三个逻辑段落——（a）用户交互历史、（b）候选物品描述、以及（c）生成指令。
Cache Construction:
- user‑history segment 较小且高度复用，因此在每个推理节点上复制存储。
- item segment 规模庞大（数百万条物品）。先对物品进行嵌入、按相似度聚类，然后分片，使经常一起出现的物品位于同一节点。
KV‑Cache Retrieval: 当请求到达时，调度器在分布式 KV 存储中查找所需块。缓存块直接插入模型的注意力记忆，绕过这些 token 的昂贵前向传播。
Selective Attention: 对于缓存块，模型跳过完整的自注意力矩阵（O(n²) 成本），仅在缓存 token 与新 token 的边界上计算一个廉价的“校正”注意力，确保上下文仍被正确整合。
Global Scheduling: 基于亲和力的路由器监控缓存命中率，并在分片之间迁移热点物品，以保持高局部性，降低跨节点通信。

所有这些都被编排为一个微服务，可以以最小的代码改动嵌入现有的 LLM 服务栈（例如 TensorRT‑LLM、vLLM）。

指标	基线（前缀缓存）	RcLLM	加速比
TTFT（平均）	120 ms	13 ms – 92 ms	1.31× – 9.51×
Top‑K 推荐准确率 (HR@10)	0.742	0.739	≈ 0.4 % 下降
缓存命中率（用户历史）	68 %	100 %（复制）	–
缓存命中率（商品）	22 %	55 %（相似度感知分片）	–

关键要点

Source: …

Cold‑Start Items（冷启动项目）: 尚未进行嵌入和分片的新项目会错过缓存，需要承担完整的注意力计算成本，直至它们变热。
Cache Management Overhead（缓存管理开销）: 亲和调度器会增加账务流量；在极高吞吐场景下，这可能成为瓶颈。
Model‑Specific Tuning（模型特定调优）: 选择性注意力校正已针对仅解码器的 Transformer 进行调优；将其迁移到编码器‑解码器或检索增强模型可能需要额外研究。
Future Directions（未来方向）: 作者建议探索层次缓存（例如在短语层面进行缓存）、集成学习式缓存替换策略，以及将系统扩展到多模态推荐（文本 + 图像）。