[Paper] 强化 Fast Weights 与 Next-Sequence Prediction
发布: (2026年2月19日 GMT+8 02:53)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16704v1
Overview
本文介绍了 REFINE,一种强化学习(RL)框架,旨在让快速权重语言模型预测 序列(sequences)而不是单个下一个标记(token)。通过将传统的下一个标记预测(next‑token prediction,NTP)目标转变为下一个序列预测(next‑sequence prediction,NSP)目标,REFINE 帮助快速权重架构更可靠地捕获长程依赖,从而在需要非常长上下文窗口的任务上缩小与基于注意力的 Transformers 的性能差距。
关键贡献
- NSP 驱动的快速权重训练 – 提出一种强化学习流水线,在多标记回滚上优化快速权重模型,促进一致的长程表征。
- 基于熵的标记选择 – 使用预测熵挑选上下文中“信息量大”的位置,将强化学习信号聚焦在模型最不确定的地方。
- 组相对策略优化 (GRPO) – 引入一种针对快速权重网络分组回滚结构的稳定策略梯度算法。
- 通用适用性 – 证明 REFINE 可以在模型生命周期的任何阶段注入:中期训练、后期微调,甚至测试时适配。
- 跨基准的实证提升 – 在针刺稻草堆检索、长上下文问答以及使用两种大型快速权重骨干(LaCT‑760M 与 DeltaNet‑1.3B)的综合 LongBench 套件上展示出一致的改进。
方法论
- Fast‑weight backbone – 基础模型在读取 token 时即时更新一组“快速权重”,从而以常数内存开销存储上下文信息。
- Entropy‑guided sampling – 对于给定的输入前缀,模型计算其 token 级别预测的熵。熵高的位置被标记为信息丰富,因为模型对它们不确定。
- Multi‑token rollouts – 从每个选中的位置出发,模型使用当前的快速权重动态生成一个短的 rollout(例如 5–10 个 token)。
- Self‑supervised rewards – rollout 完成后,通过将生成的序列与真实的续写进行比较(例如使用类似 BLEU 的 n‑gram 重叠或学习的相似度评分器)来计算奖励。该奖励反映模型在整个 rollout 中保持语义连贯性的程度。
- GRPO optimization – 使用 Group Relative Policy Optimization(GRPO)更新策略(即快速权重更新规则),这是一种 PPO 变体,将每个 rollout 视为一个组,并相对于该组的基线归一化优势,从而稳定训练。
- Training regimes – REFINE 可在以下情形下使用:
- Mid‑training – 作为标准 NTP 的辅助目标。
- Post‑training – 对预训练的快速权重模型进行微调。
- Test‑time – 在推理前对特定输入批次进行少量 RL 更新。
结果与发现
| 模型(规模) | 基线(NTP) | REFINE(NSP) | Δ |
|---|---|---|---|
| LaCT‑760M | 45.2 % (LongBench avg.) | 52.8 % | +7.6 % |
| DeltaNet‑1.3B | 48.7 % | 55.9 % | +7.2 % |
| Needle‑in‑a‑haystack (retrieval) | 31.4 % | 38.9 % | +7.5 % |
| Long‑context QA (TriviaQA‑long) | 62.1 % | 70.4 % | +8.3 % |
- 持续提升 在所有评估任务中均表现一致,且在需要在数百至数千个标记上保持连贯性的任务上提升最大。
- 测试时适配 在无需额外标注数据的情况下带来适度但可测量的提升(≈1–2 % 绝对值),凸显了 REFINE 的灵活性。
- 训练稳定性:GRPO 防止了语言建模中强化学习常见的高方差,实现了在数十万步内收敛——可与标准监督微调预算相媲美。
实际意义
- 内存高效的长上下文模型 – 在边缘设备上开发或服务海量请求的开发者,现在可以将快速权重架构视为全注意力 Transformer 的可行替代方案,实现常数级内存扩展,同时保持强劲性能。
- 即插即用的改进 – REFINE 可直接加入现有的快速权重流水线,无需重新设计模型结构,对已经在生产环境中使用 LaCT 或 DeltaNet 风格模型的团队极具吸引力。
- 少样本适配 – 测试时模式支持对领域特定文档(如法律合同、科研论文)进行即时微调,无需额外的微调数据集。
- 更佳的检索系统 – “大海捞针”能力直接转化为在大规模语料库上的更精准语义搜索,适用于知识库助理和代码搜索工具。
局限性与未来工作
- RL 开销 – 虽然 GRPO 效率较高,但基于熵的 rollout 步骤相比纯 NTP 训练会增加额外计算;在多十亿参数的 fast‑weight 模型上进行扩展可能需要进一步优化。
- 奖励设计 – 当前的自监督奖励依赖表层的 n‑gram 重叠;使用更丰富的语义奖励(例如基于学习的评估器)可能会提升与下游任务的对齐程度。
- 超出 fast weights 的泛化 – 将 REFINE 应用于标准 Transformer 模型并非易事,因为 “fast‑weight” 更新机制是 rollout 语义的核心。将该思路扩展到混合架构仍是一个开放的研究方向。
- 消融深度 – 虽然论文展示了若干消融实验,但更深入地分析 rollout 长度和熵阈值如何影响不同语言领域,将有助于实践者为特定使用场景微调该方法。
作者
- Hee Seung Hwang
- Xindi Wu
- Sanghyuk Chun
- Olga Russakovsky
论文信息
- arXiv ID: 2602.16704v1
- 分类: cs.CL
- 发表时间: 2026年2月18日
- PDF: 下载 PDF