[Paper] ReaSeq：通过推理释放世界知识用于序列建模

发布: 1个月前 (2025年12月25日 GMT+8 00:06)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21257v1

概览

ReaSeq 是一个新框架，它将大型语言模型（LLMs）中存储的世界知识注入到工业推荐系统中。通过将显式的链式思考推理与潜在扩散推断相结合，它解决了两个长期存在的痛点：稀疏的仅 ID 项目嵌入以及无法呈现平台历史日志之外的兴趣。

混合推理管道 – 将显式多代理链式思考（CoT）推理用于生成结构化的产品语义，并结合隐式基于扩散的 LLM 推理，想象超出记录点击的合理用户行为。
项目 ID 的语义丰富 – 将原始项目标识符转换为密集、基于知识的向量，捕获属性、使用情境和跨域关系。
超出日志的行为生成 – 扩散 LLM 预测 “用户下一步可能做什么”，即使没有先前交互，也能有效扩大推荐范围。
大规模生产验证 – 部署在淘宝实时排序管道，服务数亿用户，实现点击率（CTR）和每次展示印象（IPV）提升 >6 %，订单增加 +2.9 %，商品交易总额（GMV）增长 +2.5 %。
多代理协作设计 – 引入轻量级协调协议，使多个专门的代理（知识提取器、语义映射器、行为生成器）在不进行大量模型再训练的情况下共享中间推理步骤。

Data Ingestion – 将现有的交互日志（用户‑商品点击、购买）输入到 knowledge extraction 代理。
Explicit CoT Reasoning
- 一组提示引导 LLM 将每个商品拆解为属性层级（类别、材质、风格、使用场景等）。
- 多代理系统迭代细化这些属性，生成每个商品的 structured knowledge graph。
- 然后对图进行嵌入（例如通过图神经网络），创建一个 semantic item vector，用于增强传统的 ID 嵌入。
Implicit Diffusion Reasoning
- 基于扩散的 LLM（如 Diffusion‑GPT）以用户的短期会话和已丰富的商品向量为条件。
- 它采样日志中不存在的合理未来交互，实际上在“超日志”兴趣上进行幻觉式推断，同时通过语义知识保持 grounded。
Fusion & Ranking
- 将原始协同过滤得分、语义向量以及扩散生成的候选商品在轻量级排序模型（通常是前馈网络）中合并。
- 实时推理在淘宝排序服务的延迟预算内运行。

整个流水线是模块化的：任何 LLM 都可以替换，推理步骤会被记录以便解释性分析和调试。

指标	仅日志基线	ReaSeq（已部署）	相对提升
IPV（每次观看的展示次数）	1.00	1.06	+6.0 %
CTR	0.12	0.127	+6.0 %
订单	1,200 k	1,235 k	+2.9 %
GMV	¥1.00 B	¥1.025 B	+2.5 %

总体而言，ReaSeq 证明了将世界知识与推理相结合能够突破许多推荐系统如今面临的 “仅日志” 上限，为实现更智能、上下文感知且普遍适用的推荐引擎开辟了道路。