[Paper] 关于序列模型中的“归纳偏差”
发布: (2026年2月21日 GMT+8 00:39)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.18333v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概览
Transformer 在自然语言处理领域备受关注,但最近的研究表明它们在 状态跟踪——即在序列演化过程中保持一致的内部表示——方面存在困难。本文深入探讨了这一问题 内部 的训练分布(即不仅仅在分布外测试上),并将 Transformer 与经典的循环神经网络(RNN)进行比较,评估它们在不同序列长度和状态空间规模下学习跟踪状态的效率。
关键贡献
- 大规模实证比较 Transformer 与 RNN 在状态跟踪任务上数据效率的表现,覆盖多种监督模式。
- 定量证据 表明,随着状态空间或序列长度的增长,Transformer 需要显著更多的训练数据,而 RNN 的扩展性则更为平稳。
- 权重共享分析 跨序列长度的情况,显示 Transformer 学到的几乎是针对特定长度的解,而 RNN 则自然地在不同长度之间摊销学习。
- 有洞察力的诊断工具(例如跨长度泛化曲线、参数复用度量),可供实践者重复使用以检验其模型。
方法论
- 合成状态跟踪基准 – 作者生成受控任务,其中隐藏的“状态”以确定性方式演变(例如计数器、有限状态机),并且必须从观察到的序列中推断出来。
- 可变难度维度 – 他们系统性地增加 (a) 隐藏状态空间的规模 和 (b) 最大序列长度,构成一个 𝑁 × L 条件网格。
- 模型族 – 评估两种典型架构:
- Transformer encoder(标准多头自注意力,位置编码)。
- RNN(GRU/LSTM 变体)。
- 监督模式 – 从完全监督(每个时间步都有状态标签)到稀疏监督(仅在最终步骤提供标签)。
- 数据效率测量 – 对每个条件,模型在逐步增大的训练子集上进行训练,并记录达到预定义准确率阈值所需的最小数据集规模。
- 跨长度权重共享分析 – 在一组长度上训练后,将相同的权重在未见过的长度上进行测试,计算性能下降,以量化知识在不同长度之间的迁移程度。
结果与发现
| 方面 | Transformers | RNNs |
|---|---|---|
| 所需训练数据 | 随状态空间规模和序列长度超线性增长;例如,当状态空间翻倍时,需要的训练数据增加 10 倍。 | 呈次线性增长;对于相同的变化,通常仅有适度的增加(约 1.2 倍)。 |
| 跨长度泛化 | 几乎没有迁移;在长度 = 10 上训练的模型在长度 = 20 时表现不佳,除非重新训练。 | 迁移效果显著;在短序列上训练的模型在更长序列上也能提升性能,无需额外训练。 |
| 权重共享 | 几乎不存在;注意力头学习特定长度的模式,有时甚至会削弱在其他长度上的表现。 | 通过循环权重实现内在共享;相同的转移矩阵在所有时间步中重复使用。 |
| 监督稀疏性的影响 | 在监督稀疏的情况下,数据效率差距进一步扩大。 | RNN 的表现相对稳健。 |
简而言之,即使测试分布与训练分布相匹配,Transformers 在学习状态追踪时仍表现出根本性的低效,它们倾向于记忆针对特定长度的技巧,而不是构建统一的、摊销的表示。
实际影响
- 模型选择用于顺序推理 – 对于需要显式状态跟踪的任务(例如解析、程序执行、对话状态管理),RNN 风格的递归仍可能是更高数据效率的选择,尤其在训练数据有限时。
- 设计更好的 Transformer – 这些发现激励对架构进行调整,以鼓励 长度无关 的表示,例如加入递归、相对位置编码或显式记忆模块。
- 课程学习 – 由于 Transformer 在不同长度之间共享知识存在困难,逐步增加序列长度的课程学习可以缓解数据效率问题。
- 基准测试 – 开发者应在标准 NLP 基准中加入受控的状态跟踪探针,以捕捉 OOD 测试可能遗漏的隐藏弱点。
- 资源预算 – 在规划大规模预训练时,如果下游任务涉及长程状态依赖(例如代码生成、长文档摘要),应预期 Transformer 需要显著更多的样本。
限制与未来工作
- 合成任务 – 虽然它们提供了清晰的洞察,但真实世界的数据可能包含有助于 transformer 泛化的额外结构。
- 模型变体 – 仅研究了基础 transformer 和标准的 GRU/LSTM 单元;更新的架构(例如 Performer、循环 Transformer)可能表现不同。
- 规模 – 实验在中等模型规模上进行;尚不清楚扩大规模(更多层、更大的隐藏维度)是否能缓解数据效率差距。
- 理论分析 – 论文提供了实证证据,但未对导致长度特定学习的“归纳偏置”进行正式表征。
未来的研究可以探索将注意力与递归相结合的混合模型,研究促进长度不变性的替代位置编码,并将分析扩展到真实世界的序列任务,如代码生成或多轮对话。
作者
- M. Reza Ebrahimi
- Michaël Defferrard
- Sunny Panchal
- Roland Memisevic
论文信息
- arXiv ID: 2602.18333v1
- 类别: cs.LG, cs.CL
- 出版日期: 2026年2月20日
- PDF: 下载 PDF