[Paper] 强化 Fast Weights 与 Next-Sequence Prediction

发布: 3天前 (2026年2月19日 GMT+8 02:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16704v1

Overview

本文介绍了 REFINE，一种强化学习（RL）框架，旨在让快速权重语言模型预测序列（sequences）而不是单个下一个标记（token）。通过将传统的下一个标记预测（next‑token prediction，NTP）目标转变为下一个序列预测（next‑sequence prediction，NSP）目标，REFINE 帮助快速权重架构更可靠地捕获长程依赖，从而在需要非常长上下文窗口的任务上缩小与基于注意力的 Transformers 的性能差距。

关键贡献

NSP 驱动的快速权重训练 – 提出一种强化学习流水线，在多标记回滚上优化快速权重模型，促进一致的长程表征。
基于熵的标记选择 – 使用预测熵挑选上下文中“信息量大”的位置，将强化学习信号聚焦在模型最不确定的地方。
组相对策略优化 (GRPO) – 引入一种针对快速权重网络分组回滚结构的稳定策略梯度算法。
通用适用性 – 证明 REFINE 可以在模型生命周期的任何阶段注入：中期训练、后期微调，甚至测试时适配。
跨基准的实证提升 – 在针刺稻草堆检索、长上下文问答以及使用两种大型快速权重骨干（LaCT‑760M 与 DeltaNet‑1.3B）的综合 LongBench 套件上展示出一致的改进。

方法论

Fast‑weight backbone – 基础模型在读取 token 时即时更新一组“快速权重”，从而以常数内存开销存储上下文信息。
Entropy‑guided sampling – 对于给定的输入前缀，模型计算其 token 级别预测的熵。熵高的位置被标记为信息丰富，因为模型对它们不确定。
Multi‑token rollouts – 从每个选中的位置出发，模型使用当前的快速权重动态生成一个短的 rollout（例如 5–10 个 token）。
Self‑supervised rewards – rollout 完成后，通过将生成的序列与真实的续写进行比较（例如使用类似 BLEU 的 n‑gram 重叠或学习的相似度评分器）来计算奖励。该奖励反映模型在整个 rollout 中保持语义连贯性的程度。
GRPO optimization – 使用 Group Relative Policy Optimization（GRPO）更新策略（即快速权重更新规则），这是一种 PPO 变体，将每个 rollout 视为一个组，并相对于该组的基线归一化优势，从而稳定训练。
Training regimes – REFINE 可在以下情形下使用：
- Mid‑training – 作为标准 NTP 的辅助目标。
- Post‑training – 对预训练的快速权重模型进行微调。
- Test‑time – 在推理前对特定输入批次进行少量 RL 更新。

结果与发现

模型（规模）	基线（NTP）	REFINE（NSP）	Δ
LaCT‑760M	45.2 % (LongBench avg.)	52.8 %	+7.6 %
DeltaNet‑1.3B	48.7 %	55.9 %	+7.2 %
Needle‑in‑a‑haystack (retrieval)	31.4 %	38.9 %	+7.5 %
Long‑context QA (TriviaQA‑long)	62.1 %	70.4 %	+8.3 %

持续提升 在所有评估任务中均表现一致，且在需要在数百至数千个标记上保持连贯性的任务上提升最大。
测试时适配 在无需额外标注数据的情况下带来适度但可测量的提升（≈1–2 % 绝对值），凸显了 REFINE 的灵活性。
训练稳定性：GRPO 防止了语言建模中强化学习常见的高方差，实现了在数十万步内收敛——可与标准监督微调预算相媲美。

实际意义

内存高效的长上下文模型 – 在边缘设备上开发或服务海量请求的开发者，现在可以将快速权重架构视为全注意力 Transformer 的可行替代方案，实现常数级内存扩展，同时保持强劲性能。
即插即用的改进 – REFINE 可直接加入现有的快速权重流水线，无需重新设计模型结构，对已经在生产环境中使用 LaCT 或 DeltaNet 风格模型的团队极具吸引力。
少样本适配 – 测试时模式支持对领域特定文档（如法律合同、科研论文）进行即时微调，无需额外的微调数据集。
更佳的检索系统 – “大海捞针”能力直接转化为在大规模语料库上的更精准语义搜索，适用于知识库助理和代码搜索工具。

局限性与未来工作

RL 开销 – 虽然 GRPO 效率较高，但基于熵的 rollout 步骤相比纯 NTP 训练会增加额外计算；在多十亿参数的 fast‑weight 模型上进行扩展可能需要进一步优化。
奖励设计 – 当前的自监督奖励依赖表层的 n‑gram 重叠；使用更丰富的语义奖励（例如基于学习的评估器）可能会提升与下游任务的对齐程度。
超出 fast weights 的泛化 – 将 REFINE 应用于标准 Transformer 模型并非易事，因为 “fast‑weight” 更新机制是 rollout 语义的核心。将该思路扩展到混合架构仍是一个开放的研究方向。
消融深度 – 虽然论文展示了若干消融实验，但更深入地分析 rollout 长度和熵阈值如何影响不同语言领域，将有助于实践者为特定使用场景微调该方法。

作者

Hee Seung Hwang
Xindi Wu
Sanghyuk Chun
Olga Russakovsky

论文信息

arXiv ID: 2602.16704v1
分类: cs.CL
发表时间: 2026年2月18日
PDF: 下载 PDF

[Paper] 强化 Fast Weights 与 Next-Sequence Prediction

Overview

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 这是什么语言？问问你的 Tokenizer

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[Paper] 揭示波斯语语言模型中的事实-概念鸿沟