[Paper] 强化 Fast Weights 与 Next-Sequence Prediction

发布: (2026年2月19日 GMT+8 02:53)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16704v1

Overview

本文介绍了 REFINE,一种强化学习(RL)框架,旨在让快速权重语言模型预测 序列(sequences)而不是单个下一个标记(token)。通过将传统的下一个标记预测(next‑token prediction,NTP)目标转变为下一个序列预测(next‑sequence prediction,NSP)目标,REFINE 帮助快速权重架构更可靠地捕获长程依赖,从而在需要非常长上下文窗口的任务上缩小与基于注意力的 Transformers 的性能差距。

关键贡献

  • NSP 驱动的快速权重训练 – 提出一种强化学习流水线,在多标记回滚上优化快速权重模型,促进一致的长程表征。
  • 基于熵的标记选择 – 使用预测熵挑选上下文中“信息量大”的位置,将强化学习信号聚焦在模型最不确定的地方。
  • 组相对策略优化 (GRPO) – 引入一种针对快速权重网络分组回滚结构的稳定策略梯度算法。
  • 通用适用性 – 证明 REFINE 可以在模型生命周期的任何阶段注入:中期训练、后期微调,甚至测试时适配。
  • 跨基准的实证提升 – 在针刺稻草堆检索、长上下文问答以及使用两种大型快速权重骨干(LaCT‑760M 与 DeltaNet‑1.3B)的综合 LongBench 套件上展示出一致的改进。

方法论

  1. Fast‑weight backbone – 基础模型在读取 token 时即时更新一组“快速权重”,从而以常数内存开销存储上下文信息。
  2. Entropy‑guided sampling – 对于给定的输入前缀,模型计算其 token 级别预测的熵。熵高的位置被标记为信息丰富,因为模型对它们不确定。
  3. Multi‑token rollouts – 从每个选中的位置出发,模型使用当前的快速权重动态生成一个短的 rollout(例如 5–10 个 token)。
  4. Self‑supervised rewards – rollout 完成后,通过将生成的序列与真实的续写进行比较(例如使用类似 BLEU 的 n‑gram 重叠或学习的相似度评分器)来计算奖励。该奖励反映模型在整个 rollout 中保持语义连贯性的程度。
  5. GRPO optimization – 使用 Group Relative Policy Optimization(GRPO)更新策略(即快速权重更新规则),这是一种 PPO 变体,将每个 rollout 视为一个组,并相对于该组的基线归一化优势,从而稳定训练。
  6. Training regimes – REFINE 可在以下情形下使用:
    • Mid‑training – 作为标准 NTP 的辅助目标。
    • Post‑training – 对预训练的快速权重模型进行微调。
    • Test‑time – 在推理前对特定输入批次进行少量 RL 更新。

结果与发现

模型(规模)基线(NTP)REFINE(NSP)Δ
LaCT‑760M45.2 % (LongBench avg.)52.8 %+7.6 %
DeltaNet‑1.3B48.7 %55.9 %+7.2 %
Needle‑in‑a‑haystack (retrieval)31.4 %38.9 %+7.5 %
Long‑context QA (TriviaQA‑long)62.1 %70.4 %+8.3 %
  • 持续提升 在所有评估任务中均表现一致,且在需要在数百至数千个标记上保持连贯性的任务上提升最大。
  • 测试时适配 在无需额外标注数据的情况下带来适度但可测量的提升(≈1–2 % 绝对值),凸显了 REFINE 的灵活性。
  • 训练稳定性:GRPO 防止了语言建模中强化学习常见的高方差,实现了在数十万步内收敛——可与标准监督微调预算相媲美。

实际意义

  • 内存高效的长上下文模型 – 在边缘设备上开发或服务海量请求的开发者,现在可以将快速权重架构视为全注意力 Transformer 的可行替代方案,实现常数级内存扩展,同时保持强劲性能。
  • 即插即用的改进 – REFINE 可直接加入现有的快速权重流水线,无需重新设计模型结构,对已经在生产环境中使用 LaCT 或 DeltaNet 风格模型的团队极具吸引力。
  • 少样本适配 – 测试时模式支持对领域特定文档(如法律合同、科研论文)进行即时微调,无需额外的微调数据集。
  • 更佳的检索系统 – “大海捞针”能力直接转化为在大规模语料库上的更精准语义搜索,适用于知识库助理和代码搜索工具。

局限性与未来工作

  • RL 开销 – 虽然 GRPO 效率较高,但基于熵的 rollout 步骤相比纯 NTP 训练会增加额外计算;在多十亿参数的 fast‑weight 模型上进行扩展可能需要进一步优化。
  • 奖励设计 – 当前的自监督奖励依赖表层的 n‑gram 重叠;使用更丰富的语义奖励(例如基于学习的评估器)可能会提升与下游任务的对齐程度。
  • 超出 fast weights 的泛化 – 将 REFINE 应用于标准 Transformer 模型并非易事,因为 “fast‑weight” 更新机制是 rollout 语义的核心。将该思路扩展到混合架构仍是一个开放的研究方向。
  • 消融深度 – 虽然论文展示了若干消融实验,但更深入地分析 rollout 长度和熵阈值如何影响不同语言领域,将有助于实践者为特定使用场景微调该方法。

作者

  • Hee Seung Hwang
  • Xindi Wu
  • Sanghyuk Chun
  • Olga Russakovsky

论文信息

  • arXiv ID: 2602.16704v1
  • 分类: cs.CL
  • 发表时间: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »