[论文] 通过推理与蒸馏学习用户兴趣用于跨域新闻推荐
发布: (2026年2月17日 GMT+8 02:45)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.15005v1
概述
该论文提出了一种新颖的方法,通过将多样的用户信号——如点击、点赞,甚至其他平台的活动——转化为interest‑driven search queries,来了解读者真正关心的内容。作者利用强化学习对大型语言模型(LLM)进行训练,生成高质量的查询列表,直接输入跨域新闻推荐系统,从而在提升个性化的同时保持系统在生产环境中的可扩展性。
关键贡献
- Reinforcement‑learning‑driven query generation: 将兴趣聚焦的查询列表的生成表述为策略优化问题,并使用广义奖励加权策略优化(GRPO)进行求解。
- Multi‑reward design: 将相关性、多样性和用户参与信号组合成单一奖励函数,引导大语言模型生成有用的查询。
- Compute scaling study: 表明推理时采样(生成更多候选)和更大模型容量均能持续提升性能,呈现可预测的尺度定律。
- On‑policy distillation pipeline: 将策略从重量级教师大语言模型转移到轻量级学生模型,在保持大部分收益的同时满足实时推荐的延迟和资源约束。
- Extensive validation: 提供离线实验、消融分析以及在生产新闻平台上的大规模线上 A/B 测试,展示了兴趣建模指标和下游点击率的可衡量提升。
方法论
- 信号聚合 – 系统收集来自新闻站点及其他领域(例如搜索、社交媒体)的异构用户行为。
- 基于提示的 LLM 生成 – 大语言模型接收描述用户近期活动的提示,并被要求输出一小列表的搜索式查询,以捕捉用户的潜在兴趣。
- 强化学习循环 – 使用 GRPO 优化模型策略。奖励函数融合:
- 相关性:生成的查询与已知用户兴趣(通过点击日志)匹配的程度。
- 多样性:鼓励话题的广度,以避免回音室效应。
- 参与度:预测下游推荐指标的提升。
- 规模实验 – 作者在两个维度上进行变化:(a) 每次推理采样的查询数量,(b) 基础 LLM 的规模(从 350 M 到 6 B 参数)。
- 蒸馏 – 在训练完大型教师模型后,进行一次在策略蒸馏步骤,训练一个紧凑的学生模型去模仿教师的查询分布,使用 KL‑散度损失加上相同的奖励信号。
- 集成 – 将蒸馏后的查询列表作为额外特征集输入到现有的新闻排序流水线,影响向用户展示的文章。
结果与发现
| 指标 | Large Teacher (6 B) | Distilled Student (350 M) | Baseline (no query generation) |
|---|---|---|---|
| Query relevance (nDCG@10) | 0.642 | 0.618 | 0.511 |
| Diversity (ILD) | 0.73 | 0.71 | 0.58 |
| Downstream CTR lift | +12.4 % | +10.1 % | — |
| Latency (ms) | 78 | 23 | 19 |
- 扩展行为:模型规模或样本数量每翻倍可带来约 3–4 % 的增量提升,遵循平滑的幂律趋势。
- 蒸馏效率:学生模型恢复了约 85 % 的教师性能,同时将推理延迟降低约 70 %,使其适用于实时服务。
- 在线影响:在每日活跃用户数以百万计的实时 A/B 测试中,蒸馏模型将整体点击率提升了 10.1 %,平均会话时长提升了 5.3 %,且系统延迟未出现退化。
实际意义
- 更丰富的用户画像: 开发者可以在现有推荐流水线中加入轻量级的查询生成模块,以捕获超出显式点击的兴趣,从而提升冷启动处理能力。
- 可扩展的个性化: 蒸馏方案使团队能够部署接近最新水平的 LLM 推理而不牺牲延迟,适配微服务架构。
- 跨域利用: 通过摄取搜索、社交或电商平台的信号,新闻应用可以呈现符合用户更广泛信息需求的文章,可能提升用户黏性。
- 模块化集成: 生成的查询列表可视作任何下游排序模型的额外特征向量(例如梯度提升树、深度 CTR 模型),从而简化采用过程。
- 开源潜力: 作者提供的基于 GRPO 的策略训练和在线蒸馏代码可重新用于视频或商品推荐等其他推荐领域。
限制与未来工作
- 奖励设计复杂性:在相关性、多样性和参与度之间取得平衡需要仔细调优;权重不佳可能导致过度个性化或主题漂移。
- 数据隐私:聚合跨域信号会引发隐私问题;本文假设数据管道符合合规要求,但未探讨隐私保护的替代方案。
- 模型新鲜度:大语言模型离线训练;热点话题的快速变化可能需要频繁重新训练或在线微调,而当前流水线未解决此问题。
- 对其他语言的泛化:实验仅限于英文新闻;将该方法扩展到多语言环境可能需要更大的多语言大模型以及针对特定语言的奖励校准。
未来的研究方向包括探索用于跨域信号的隐私保护联邦学习、保持查询生成器最新的持续学习机制,以及为全球新闻受众服务的多语言扩展。
作者
- Mengdan Zhu
- Yufan Zhao
- Tao Di
- Yulan Yan
- Liang Zhao
论文信息
- arXiv ID: 2602.15005v1
- 分类: cs.CL, cs.IR
- 出版日期: 2026年2月16日
- PDF: 下载 PDF