[Paper] RelayGR:通过跨阶段接力赛推理实现长序列生成式推荐的可扩展性

发布: (2026年1月5日 GMT+8 09:34)
7 min read
原文: arXiv

Source: arXiv - 2601.01712v1

概述

本文介绍了 RelayGR,一个生产级系统,使现代生成式推荐模型能够在不突破实时排序严格延迟预算的情况下,使用更长的用户行为历史。通过预先计算序列的“用户前缀”,并将其保存在高带宽内存(HBM)中保持热状态,RelayGR 能够提供更长的输入并提升吞吐量,同时仍然满足驱动大规模推荐流水线的严格 P99 延迟服务水平目标(SLO)。

关键贡献

  • 跨阶段前缀预推理:表明生成式推荐(GR)序列中的大多数 token 与候选商品无关,从而可以在最终排序阶段之前计算可复用的前缀。
  • 序列感知触发器:一种轻量级的接入控制器,根据缓存压力和预期延迟影响,针对每个请求决定是否预先推理前缀。
  • 亲和感知路由器:确保预推理得到的前缀与后续的排序请求落在同一服务器实例上,消除昂贵的远程获取。
  • 内存感知扩展器:利用服务器本地 DRAM 作为二级缓存,捕获跨请求的短期复用,同时保持主 KV 缓存驻留在 HBM 中。
  • 工业规模实现:在华为 Ascend NPU 上部署,展示出最高 1.5 倍 更长的有效序列长度和 3.6 倍 符合 SLO 的吞吐提升。

方法论

  1. Problem Framing – 作者对典型的多阶段推荐流程(retrieval → pre‑processing → fine‑grained ranking)进行画像,发现排序阶段只有几十毫秒的时间来运行 GR 模型,导致对输入长度必须设定硬性上限。

  2. Prefix Isolation – 通过分析 token 依赖关系,他们将 user‑behavior prefix(candidate‑agnostic)与 candidate‑specific suffix 分离。前缀可以在每个用户会话中计算一次,并在后续检查的每个候选项中复用。

  3. System Design

    • Trigger 监控请求速率和缓存占用;如果实时处理完整序列会超出延迟预算,它会标记为“at‑risk”请求。
    • Router 使用一致性哈希方案将预推理任务和后续排序请求引导至同一 NPU 实例,确保 KV 缓存保持本地。
    • Expander 维护最近使用前缀的 DRAM 常驻副本,使新排序实例能够快速热启动,而无需重新计算前缀。
  4. Implementation – 该流水线基于 Ascend NPU 运行时构建,利用其 HBM 作为 KV 缓存,并与现有的推荐服务栈集成。

结果与发现

指标基线(无 RelayGR)RelayGR
最大可用序列长度(标记)~200~300 (≈ 1.5×)
P99 排序延迟(毫秒)28≤ 28 (unchanged)
符合 SLO 的吞吐量(查询/秒)1.0× (baseline)up to 3.6×
KV 缓存命中率(前缀)0 %92 % (average)
  • 延迟 保持在相同的 P99 范围内,因为繁重的前缀工作已移出关键路径。
  • 吞吐量 显著提升,因为排序阶段现在每个请求处理的标记显著减少。
  • 缓存效率 很高,得益于亲和感感知路由;大多数排序请求的前缀已驻留在 HBM 中。

实际意义

  • 更长的用户历史:开发者可以向生成式推荐系统提供更丰富的行为上下文,从而在不牺牲延迟的情况下提升个性化。
  • 成本效益的扩展:通过复用前缀,系统降低了每次查询的计算周期,使现有硬件能够处理更高的每秒查询数(QPS)或降低功耗。
  • 简化模型工程:团队可以保留单一的大型 GR 模型,而无需为生产环境维护不同的“短序列”变体。
  • 可推广的模式:继电赛跑推理概念可应用于其他对延迟敏感的生成任务(例如下一词预测、代码补全),这些任务的输入中有很大一部分在后续调用中保持不变。

限制与未来工作

  • 缓存占用:即使使用 HBM,针对数百万活跃用户的 KV 缓存也可能超出内存限制;当前的触发机制仅能近似最佳驱逐策略。
  • 冷启动延迟:首次使用的用户仍需承担完整的推理成本;论文提出了热身预测器的思路,但并未实现。
  • 硬件依赖:该方案与 Ascend NPU 及其 HBM 架构紧密耦合;迁移到 GPU 或 CPU 可能需要重新设计内存感知的扩展器。
  • 超出推荐的应用:未来研究可以探索将 relay‑race 范式应用于多模态生成模型,或用于候选集快速变化的场景。

RelayGR 证明了巧妙的系统层面工程——将生成模型输入的静态部分与动态部分分离,并将静态部分保持在热内存中——能够释放长序列推荐模型在生产环境中的全部潜力。对于构建实时 AI 服务的开发者而言,本文提供了一套具体的蓝图,帮助在模型表达能力与用户期望的严格延迟保证之间取得平衡。

作者

  • Jiarui Wang
  • Huichao Chai
  • Yuanhang Zhang
  • Zongjin Zhou
  • Wei Guo
  • Xingkun Yang
  • Qiang Tang
  • Bo Pan
  • Jiawei Zhu
  • Ke Cheng
  • Yuting Yan
  • Shulan Wang
  • Yingjie Zhu
  • Zhengfan Yuan
  • Jiaqi Huang
  • Yuhan Zhang
  • Xiaosong Sun
  • Zhinan Zhang
  • Hong Zhu
  • Yongsheng Zhang
  • Tiantian Dong
  • Zhong Xiao
  • Deliang Liu
  • Chengzhou Lu
  • Yuan Sun
  • Zhiyuan Chen
  • Xinming Han
  • Zaizhu Liu
  • Yaoyuan Wang
  • Ziyang Zhang
  • Yong Liu
  • Jinxin Xu
  • Yajing Sun
  • Zhoujun Yu
  • Wenting Zhou
  • Qidong Zhang
  • Zhengyong Zhang
  • Zhonghai Gu
  • Yibo Jin
  • Yongxiang Feng
  • Pengfei Zuo

论文信息

  • arXiv ID: 2601.01712v1
  • 分类: cs.DC, cs.AI, cs.LG
  • 发布日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »