[Paper] 关于序列模型中的“归纳偏差”

发布: (2026年2月21日 GMT+8 00:39)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.18333v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概览

Transformer 在自然语言处理领域备受关注,但最近的研究表明它们在 状态跟踪——即在序列演化过程中保持一致的内部表示——方面存在困难。本文深入探讨了这一问题 内部 的训练分布(即不仅仅在分布外测试上),并将 Transformer 与经典的循环神经网络(RNN)进行比较,评估它们在不同序列长度和状态空间规模下学习跟踪状态的效率。

关键贡献

  • 大规模实证比较 Transformer 与 RNN 在状态跟踪任务上数据效率的表现,覆盖多种监督模式。
  • 定量证据 表明,随着状态空间或序列长度的增长,Transformer 需要显著更多的训练数据,而 RNN 的扩展性则更为平稳。
  • 权重共享分析 跨序列长度的情况,显示 Transformer 学到的几乎是针对特定长度的解,而 RNN 则自然地在不同长度之间摊销学习。
  • 有洞察力的诊断工具(例如跨长度泛化曲线、参数复用度量),可供实践者重复使用以检验其模型。

方法论

  1. 合成状态跟踪基准 – 作者生成受控任务,其中隐藏的“状态”以确定性方式演变(例如计数器、有限状态机),并且必须从观察到的序列中推断出来。
  2. 可变难度维度 – 他们系统性地增加 (a) 隐藏状态空间的规模 和 (b) 最大序列长度,构成一个 𝑁 × L 条件网格。
  3. 模型族 – 评估两种典型架构:
    • Transformer encoder(标准多头自注意力,位置编码)。
    • RNN(GRU/LSTM 变体)。
  4. 监督模式 – 从完全监督(每个时间步都有状态标签)到稀疏监督(仅在最终步骤提供标签)。
  5. 数据效率测量 – 对每个条件,模型在逐步增大的训练子集上进行训练,并记录达到预定义准确率阈值所需的最小数据集规模。
  6. 跨长度权重共享分析 – 在一组长度上训练后,将相同的权重在未见过的长度上进行测试,计算性能下降,以量化知识在不同长度之间的迁移程度。

结果与发现

方面TransformersRNNs
所需训练数据随状态空间规模和序列长度超线性增长;例如,当状态空间翻倍时,需要的训练数据增加 10 倍。次线性增长;对于相同的变化,通常仅有适度的增加(约 1.2 倍)。
跨长度泛化几乎没有迁移;在长度 = 10 上训练的模型在长度 = 20 时表现不佳,除非重新训练。迁移效果显著;在短序列上训练的模型在更长序列上也能提升性能,无需额外训练。
权重共享几乎不存在;注意力头学习特定长度的模式,有时甚至会削弱在其他长度上的表现。通过循环权重实现内在共享;相同的转移矩阵在所有时间步中重复使用。
监督稀疏性的影响在监督稀疏的情况下,数据效率差距进一步扩大。RNN 的表现相对稳健。

简而言之,即使测试分布与训练分布相匹配,Transformers 在学习状态追踪时仍表现出根本性的低效,它们倾向于记忆针对特定长度的技巧,而不是构建统一的、摊销的表示。

实际影响

  • 模型选择用于顺序推理 – 对于需要显式状态跟踪的任务(例如解析、程序执行、对话状态管理),RNN 风格的递归仍可能是更高数据效率的选择,尤其在训练数据有限时。
  • 设计更好的 Transformer – 这些发现激励对架构进行调整,以鼓励 长度无关 的表示,例如加入递归、相对位置编码或显式记忆模块。
  • 课程学习 – 由于 Transformer 在不同长度之间共享知识存在困难,逐步增加序列长度的课程学习可以缓解数据效率问题。
  • 基准测试 – 开发者应在标准 NLP 基准中加入受控的状态跟踪探针,以捕捉 OOD 测试可能遗漏的隐藏弱点。
  • 资源预算 – 在规划大规模预训练时,如果下游任务涉及长程状态依赖(例如代码生成、长文档摘要),应预期 Transformer 需要显著更多的样本。

限制与未来工作

  • 合成任务 – 虽然它们提供了清晰的洞察,但真实世界的数据可能包含有助于 transformer 泛化的额外结构。
  • 模型变体 – 仅研究了基础 transformer 和标准的 GRU/LSTM 单元;更新的架构(例如 Performer、循环 Transformer)可能表现不同。
  • 规模 – 实验在中等模型规模上进行;尚不清楚扩大规模(更多层、更大的隐藏维度)是否能缓解数据效率差距。
  • 理论分析 – 论文提供了实证证据,但未对导致长度特定学习的“归纳偏置”进行正式表征。

未来的研究可以探索将注意力与递归相结合的混合模型,研究促进长度不变性的替代位置编码,并将分析扩展到真实世界的序列任务,如代码生成或多轮对话。

作者

  • M. Reza Ebrahimi
  • Michaël Defferrard
  • Sunny Panchal
  • Roland Memisevic

论文信息

  • arXiv ID: 2602.18333v1
  • 类别: cs.LG, cs.CL
  • 出版日期: 2026年2月20日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »