[Paper] MemRec: 协同记忆增强代理式推荐系统

发布: (2026年1月14日 GMT+8 02:51)
8 min read
原文: arXiv

Source: arXiv - 2601.08816v1

概述

本文介绍了 MemRec,一种用于推荐系统的新架构,它将大型语言模型(LLM)进行的繁重推理与协作“记忆”图的管理分离。通过让轻量模型 (LM_Mem) 来策划和更新共享的语义记忆,下游推荐 LLM (LM_Rec) 可以专注于生成高质量的推荐,而不被海量图数据拖慢。该设计解决了两个长期存在的痛点:

  1. 如何向基于 LLM 的推荐系统提供丰富的协作信号而不让其负荷过重。
  2. 如何在不导致计算成本爆炸的情况下保持协作知识的时效性。

关键贡献

  • Decoupled Architecture – 引入两阶段流水线(LM_Mem + LM_Rec),将记忆管理与推荐推理清晰分离。
  • Collaborative Memory Graph – 构建动态的图结构语义记忆,聚合全平台的用户‑物品交互,使“具备代理性”的 LLM 能够利用集体偏好。
  • Cost‑Effective Retrieval & Propagation – 提出异步图传播机制,在后台更新记忆,显著降低每次请求的延迟和推理成本。
  • Privacy‑Friendly Deployment – 展示该框架可在本地部署开源 LLM,保持用户数据离线,同时保持推荐质量。
  • State‑of‑the‑Art Results – 在四个公开基准上实证超越现有基于 LLM 的推荐系统,建立了准确率、成本、隐私的全新帕累托前沿。
  • Open‑Source Release – 提供代码和演示站点,鼓励可复现性和社区扩展。

方法论

  1. 记忆构建 (LM_Mem)

    • 一个轻量级语言模型摄取原始交互日志(点击、评分、时间戳),并将其编码为节点嵌入。
    • 这些嵌入被链接成一个 协同记忆图,其中边捕获共现、相似性或时间邻近性。
    • LM_Mem 运行 异步图传播(例如轻量级消息传递),以在不阻塞推荐请求的情况下保持图的最新状态。
  2. 上下文合成

    • 当用户查询到达时,LM_Mem 执行 成本感知检索:它选择一个小的、高信号子图(几百个节点)作为与用户当前上下文最相关的部分。
    • 检索到的子图被序列化为简洁的文本提示(例如 “用户 A 喜欢项目 X、Y;相似用户喜欢 Z …”),并交给第二个模型。
  3. 推理 (LM_Rec)

    • 一个更大、可能更强大的 LLM(例如 GPT‑4、Llama‑2)接收合成后的提示并生成最终的推荐列表,必要时解释其推理过程。
    • 由于提示已经包含了提炼的协同知识,LM_Rec 可以保持 “代理式” (执行链式思考推理),而无需处理完整的图。
  4. 训练与微调

    • 对 LM_Mem 进行对比目标的微调,以产生保留协同信号的嵌入。
    • 对 LM_Rec 进行标准推荐损失的微调(例如对下一个项目预测的交叉熵),使用 LM_Mem 生成的提示进行训练。

整体流水线是 模块化 的:可以轻松地用不同模型替换任一组件,或独立地对它们进行扩展。

结果与发现

数据集指标 (HR@10)MemRec最佳先前 LLM‑Rec% 增长
Amazon‑Books0.4210.4520.418+8.1%
MovieLens‑1M0.3890.4150.382+8.6%
Yelp0.3370.3610.333+8.4%
Pinterest0.2740.2980.267+11.5%
  • 推理成本:MemRec 将平均 GPU 内存使用量降低约 45 %,因为 LM_Rec 只需处理更短的提示。
  • 延迟:在单个 A100 上,端到端响应时间从约 300 ms 降至约 180 ms,满足实时服务 SLA。
  • 隐私:使用完全本地的 Llama‑2‑13B 模型进行实验,仅比基于云的 GPT‑4 基线在 HR@10 上下降 2–3 %,证明在不向外部 API 发送数据的情况下也能实现高性能。

消融研究表明:(i) 异步图更新对新鲜度至关重要,且 (ii) 解耦比单纯增大提示长度能够提供更好的权衡。

实际意义

  • 可扩展的自主推荐系统 – 企业可以采用基于 LLM 驱动的推荐服务,而无需每次都将完整的交互图输入模型,从而避免高昂成本。
  • 边缘与设备端部署 – 由于 LM_Mem 能在普通硬件上运行,且 LM_Rec 可替换为开源模型,MemRec 能在手机、浏览器或物联网设备上实现隐私保护的推荐。
  • 快速知识刷新 – 背景图传播使得新用户行为在秒级内体现在推荐结果中,这对新闻或电商限时抢购等快速变化的领域至关重要。
  • 模块化升级路径 – 团队可以独立尝试更好的检索策略或更新的大语言模型,从而缩短研发周期。
  • 成本节约 – 每次请求所需的 GPU 内存和计算量降低,直接转化为云费用的减少,使基于 LLM 的推荐对中型平台也变得可行。

限制与未来工作

  • 图规模爆炸 – 虽然 LM_Mem 缓解了运行时成本,但底层记忆图仍会随用户‑物品交互线性增长;高效的剪枝或层次化摘要仍是一个未解的挑战。
  • 新物品的冷启动 – 交互次数少的物品高度依赖内容特征;当文本元数据稀缺时,当前设置可能表现不佳。
  • 提示工程的敏感性 – LM_Rec 输出的质量取决于 LM_Mem 如何格式化子图;更稳健、甚至可学习的提示模板可能提升稳定性。
  • 真实流量上的评估 – 基准测试是静态的;在实际 A/B 测试中部署 MemRec 将揭示离线实验未捕获的延迟峰值、缓存影响以及用户满意度等指标。

作者提出的未来研究方向包括层次化记忆图、基于请求紧迫度的自适应检索预算,以及更紧密地结合强化学习,以持续使协同记忆与业务目标保持一致。

作者

  • Weixin Chen
  • Yuhan Zhao
  • Jingyuan Huang
  • Zihe Ye
  • Clark Mingxuan Ju
  • Tong Zhao
  • Neil Shah
  • Li Chen
  • Yongfeng Zhang

论文信息

  • arXiv ID: 2601.08816v1
  • 分类: cs.IR, cs.AI
  • 出版日期: 2026年1月13日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »