使用 Transformer 学习伪随机数
Source: Hacker News
摘要
我们研究了 Transformer 模型学习由 置换同余生成器 (PCGs) 产生的序列的能力,PCG 是一种广泛使用的伪随机数生成器(PRNG)家族。PCG 通过对隐藏状态施加一系列按位移位、异或、旋转和截断,较线性同余生成器(LCG)引入了显著的额外难度。我们展示,即便在未见过的多种 PCG 变体的序列上,Transformer 仍能在上下文中成功预测,这些任务超出了已发表的经典攻击范围。
在实验中,我们将模数扩展至 $2^{22}$,使用最多 5000 万模型参数和最多 50 亿 token 的数据集。令人惊讶的是,即使输出被截断为单个位,模型也能可靠地进行预测。当在训练期间同时呈现多个不同的 PRNG 时,模型能够共同学习它们,识别来自不同置换的结构。
我们展示了一个关于模数 $m$ 的尺度律:实现近乎完美预测所需的上下文序列元素数量随 $\sqrt{m}$ 增长。对于更大的模数,优化会进入延长的停滞阶段;学习模数 $m \ge 2^{20}$ 需要引入来自较小模数的训练数据,体现了课程学习的关键必要性。
最后,我们分析了嵌入层并发现了一种新颖的聚类现象:最高主成分会自发地将整数输入按位旋转不变地聚类,揭示了表示如何从较小模数迁移到较大模数的机制。
评论
- 10 + 13 页
- 8 + 21 图
主题
- 机器学习 (cs.LG)
- 无序系统与神经网络 (cond-mat.dis-nn)
- 密码学与安全 (cs.CR)
引用
Cite as: arXiv:2510.26792 (cs.LG)
或针对本版本: arXiv:2510.26792v2 (cs.LG)
DOI
https://doi.org/10.48550/arXiv.2510.26792 – arXiv‑issued DOI via DataCite
提交历史
- v1 – Thu, 30 Oct 2025 17:59:09 UTC (12,235 KB) – submitted by Tao Tao
- v2 – Mon, 16 Feb 2026 23:41:23 UTC (17,937 KB)