[Paper] 关于序列模型中的“归纳偏差”

发布: 3天前 (2026年2月21日 GMT+8 00:39)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.18333v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概览

Transformer 在自然语言处理领域备受关注，但最近的研究表明它们在 状态跟踪——即在序列演化过程中保持一致的内部表示——方面存在困难。本文深入探讨了这一问题内部的训练分布（即不仅仅在分布外测试上），并将 Transformer 与经典的循环神经网络（RNN）进行比较，评估它们在不同序列长度和状态空间规模下学习跟踪状态的效率。

关键贡献

大规模实证比较 Transformer 与 RNN 在状态跟踪任务上数据效率的表现，覆盖多种监督模式。
定量证据 表明，随着状态空间或序列长度的增长，Transformer 需要显著更多的训练数据，而 RNN 的扩展性则更为平稳。
权重共享分析 跨序列长度的情况，显示 Transformer 学到的几乎是针对特定长度的解，而 RNN 则自然地在不同长度之间摊销学习。
有洞察力的诊断工具（例如跨长度泛化曲线、参数复用度量），可供实践者重复使用以检验其模型。

方法论

合成状态跟踪基准 – 作者生成受控任务，其中隐藏的“状态”以确定性方式演变（例如计数器、有限状态机），并且必须从观察到的序列中推断出来。
可变难度维度 – 他们系统性地增加 (a) 隐藏状态空间的规模和 (b) 最大序列长度，构成一个 𝑁 × L 条件网格。
模型族 – 评估两种典型架构：
- Transformer encoder（标准多头自注意力，位置编码）。
- RNN（GRU/LSTM 变体）。
监督模式 – 从完全监督（每个时间步都有状态标签）到稀疏监督（仅在最终步骤提供标签）。
数据效率测量 – 对每个条件，模型在逐步增大的训练子集上进行训练，并记录达到预定义准确率阈值所需的最小数据集规模。
跨长度权重共享分析 – 在一组长度上训练后，将相同的权重在未见过的长度上进行测试，计算性能下降，以量化知识在不同长度之间的迁移程度。

结果与发现

方面	Transformers	RNNs
所需训练数据	随状态空间规模和序列长度超线性增长；例如，当状态空间翻倍时，需要的训练数据增加 10 倍。	呈次线性增长；对于相同的变化，通常仅有适度的增加（约 1.2 倍）。
跨长度泛化	几乎没有迁移；在长度 = 10 上训练的模型在长度 = 20 时表现不佳，除非重新训练。	迁移效果显著；在短序列上训练的模型在更长序列上也能提升性能，无需额外训练。
权重共享	几乎不存在；注意力头学习特定长度的模式，有时甚至会削弱在其他长度上的表现。	通过循环权重实现内在共享；相同的转移矩阵在所有时间步中重复使用。
监督稀疏性的影响	在监督稀疏的情况下，数据效率差距进一步扩大。	RNN 的表现相对稳健。

简而言之，即使测试分布与训练分布相匹配，Transformers 在学习状态追踪时仍表现出根本性的低效，它们倾向于记忆针对特定长度的技巧，而不是构建统一的、摊销的表示。

实际影响

模型选择用于顺序推理 – 对于需要显式状态跟踪的任务（例如解析、程序执行、对话状态管理），RNN 风格的递归仍可能是更高数据效率的选择，尤其在训练数据有限时。
设计更好的 Transformer – 这些发现激励对架构进行调整，以鼓励 长度无关 的表示，例如加入递归、相对位置编码或显式记忆模块。
课程学习 – 由于 Transformer 在不同长度之间共享知识存在困难，逐步增加序列长度的课程学习可以缓解数据效率问题。
基准测试 – 开发者应在标准 NLP 基准中加入受控的状态跟踪探针，以捕捉 OOD 测试可能遗漏的隐藏弱点。
资源预算 – 在规划大规模预训练时，如果下游任务涉及长程状态依赖（例如代码生成、长文档摘要），应预期 Transformer 需要显著更多的样本。

限制与未来工作

合成任务 – 虽然它们提供了清晰的洞察，但真实世界的数据可能包含有助于 transformer 泛化的额外结构。
模型变体 – 仅研究了基础 transformer 和标准的 GRU/LSTM 单元；更新的架构（例如 Performer、循环 Transformer）可能表现不同。
规模 – 实验在中等模型规模上进行；尚不清楚扩大规模（更多层、更大的隐藏维度）是否能缓解数据效率差距。
理论分析 – 论文提供了实证证据，但未对导致长度特定学习的“归纳偏置”进行正式表征。

未来的研究可以探索将注意力与递归相结合的混合模型，研究促进长度不变性的替代位置编码，并将分析扩展到真实世界的序列任务，如代码生成或多轮对话。

作者

M. Reza Ebrahimi
Michaël Defferrard
Sunny Panchal
Roland Memisevic

论文信息

arXiv ID: 2602.18333v1
类别: cs.LG, cs.CL
出版日期: 2026年2月20日
PDF: 下载 PDF

[Paper] 关于序列模型中的“归纳偏差”

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] $U(d)$ 的子群诱导自然的 RNN 与 Transformer 架构

[Paper] 验证论点的政治立场预测

[Paper] Vichara: 上诉判决预测与解释（针对印度司法体系）

[Paper] VeriSoftBench：针对 Lean 的仓库规模形式化验证基准