[Paper] 趋同进化:不同语言模型如何学习相似的数字表征
发布: (2026年4月23日 GMT+8 01:45)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.20817v1
概述
本文揭示了为何出人意料地广泛的语言模型——从经典词嵌入到现代 Transformer——最终几乎以相同的方式对数字进行编码。通过探测学习表征的傅里叶谱,作者展示了大多数模型会发展出具有主导周期 2、5、10 的周期性特征。随后他们进一步分析这些周期信号在诸如“n mod 5 为多少?”之类任务中的实际作用,并揭示了导致这种几何可分离性的训练条件。
关键贡献
- 发现一种通用的周期模式(周期 2、5、10)在不同模型族的数字表示中出现。
- 两层层次结构: (1) Fourier 稀疏性——所有模型在关键周期上都有尖峰; (2) 几何可分性——只有部分模型能够对模 T 的数字进行线性分离。
- 理论洞见:证明 Fourier 稀疏性是 必要 条件,但 不足以 实现模 T 的线性可分性。
- 经验分类:对导致第二层可分性的因素(数据、架构、优化器、分词器)进行归纳。
- 识别两条不同的学习路径: (a) 自然文本中的共现信号(例如 “three apples”、 “twenty‑four hours”), (b) 多 token 算术题迫使模型组合 token 嵌入。
- “趋同演化” 证据——不同模型在训练目标和结构各异的情况下,仍然收敛到相同的表征技巧。
方法论
- 模型套件 – 训练或微调了一系列模型:静态 word2vec/GloVe 嵌入、线性 RNN、LSTM,以及基于 Transformer 的语言模型(GPT 风格)。
- 探测任务 – 构建了一个简单的分类探针:给定一个 token 嵌入,使用线性分类器预测底层整数对 T 取模的余数(T ∈ {2, 5, 10})。
- 傅里叶分析 – 对 0‑99 的数字嵌入向量进行离散傅里叶变换(DFT),寻找在目标周期上的峰值。
- 几何测试 – 通过探针的准确率衡量线性可分性;高准确率表明周期特征在几何上与线性决策边界对齐。
- 受控实验 – 每次只改变一个因素(例如,分词器粒度、优化器类型、是否包含算术示例),以隔离其对可分性的影响。
- 理论证明 – 形式化了傅里叶域稀疏性与线性分离器存在之间的关系,表明前者是必要条件但不足以保证。
结果与发现
| 模型 / 设置 | T=2,5,10 时的 Fourier 峰值? | 线性 mod‑T 可分性(探针准确率) |
|---|---|---|
| 静态词嵌入(GloVe) | ✅ | 低(≈55 % 对于 T=5) |
| 线性 RNN(在原始文本上训练) | ✅ | 中等(≈70 % 对于 T=5) |
| LSTM(标准语言模型) | ✅ | 高(≈90 % 对于 T=5) |
| Transformer(GPT‑2 大小) | ✅ | 非常高(≈96 % 对于 T=5) |
| 同一 Transformer 无 算术示例 | ✅ | 降至约 78 % |
| 同一 Transformer 有 多标记加法数据 | ✅ | ↑ 至约 98 % |
- Fourier 稀疏性 普遍出现——每个模型的数字嵌入在这三个周期上都显示出明显的峰值。
- 几何可分性 差异显著。具有更深非线性(LSTM、Transformer)以及在训练中暴露于数字共现或显式加法问题的架构,实现了近乎完美的线性分类。
- 优化器影响:基于 Adam 的训练往往产生更尖锐的 Fourier 峰值和更高的可分性,相比 SGD。
- 分词粒度 也很关键:将数字拆分为多个子词标记的分词器(例如 “12” → “1”“2”)有助于学习加法式信号,提升可分性。
实际意义
- Prompt Engineering – 了解模型已经编码了干净的 mod‑T 信号,这意味着询问“奇数/偶数”或“5 的倍数”等的提示可以用极少的提示来回答,甚至可以在隐藏状态之上加一个简单的线性读出层来实现。
- Debugging Numeric Reasoning – 如果模型在数值任务上失败,检查其傅里叶谱可以快速判断底层表示是否甚至能够支持模运算推理。
- Model Compression & Distillation – 由于周期特征是低维且可解释的信号,它可以在蒸馏过程中显式保留,从而得到保留数值能力的更小模型。
- Tokenizer Design – 对于需要强大算术能力的应用(例如代码生成、电子表格助手),使用能够暴露多标记数字结构的分词器是提升性能的低成本方法。
- Data Augmentation – 向预训练语料库中添加合成的共现或加法示例是一种有效且低成本的方法,可在不重新设计架构的情况下诱导几何可分性。
- Safety & Auditing – 了解许多模型在相同的数值编码上收敛,有助于审计员预测不同模型家族的失效模式(例如,对特定数字结尾的系统性偏差)。
限制与未来工作
- 本研究聚焦于 English‑language corpora 和阿拉伯数字;尚不清楚这些发现如何迁移到使用不同数字系统的语言或非阿拉伯文字的情况。
- 探测仅限于 mod‑T classification,其中 T = 2、5、10;其他数值属性(例如大小顺序、素数检测)未进行研究。
- 理论分析假设使用 linear classifiers;非线性下游头部可能以不同方式利用这些周期特征。
- 未来的研究方向包括:将分析扩展到 multimodal models(例如 vision‑language),探索 continual‑learning scenarios 中数值表示可能漂移的情况,以及设计 explicit regularizers 在训练期间强制实现期望的周期结构。
作者
- Deqing Fu
- Tianyi Zhou
- Mikhail Belkin
- Vatsal Sharan
- Robin Jia
论文信息
- arXiv ID: 2604.20817v1
- 类别: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年4月22日
- PDF: 下载 PDF