使用 Transformer 学习伪随机数

发布: (2026年5月3日 GMT+8 15:21)
3 分钟阅读

Source: Hacker News

摘要

我们研究了 Transformer 模型学习由 置换同余生成器 (PCGs) 产生的序列的能力,PCG 是一种广泛使用的伪随机数生成器(PRNG)家族。PCG 通过对隐藏状态施加一系列按位移位、异或、旋转和截断,较线性同余生成器(LCG)引入了显著的额外难度。我们展示,即便在未见过的多种 PCG 变体的序列上,Transformer 仍能在上下文中成功预测,这些任务超出了已发表的经典攻击范围。

在实验中,我们将模数扩展至 $2^{22}$,使用最多 5000 万模型参数和最多 50 亿 token 的数据集。令人惊讶的是,即使输出被截断为单个位,模型也能可靠地进行预测。当在训练期间同时呈现多个不同的 PRNG 时,模型能够共同学习它们,识别来自不同置换的结构。

我们展示了一个关于模数 $m$ 的尺度律:实现近乎完美预测所需的上下文序列元素数量随 $\sqrt{m}$ 增长。对于更大的模数,优化会进入延长的停滞阶段;学习模数 $m \ge 2^{20}$ 需要引入来自较小模数的训练数据,体现了课程学习的关键必要性。

最后,我们分析了嵌入层并发现了一种新颖的聚类现象:最高主成分会自发地将整数输入按位旋转不变地聚类,揭示了表示如何从较小模数迁移到较大模数的机制。

评论

  • 10 + 13 页
  • 8 + 21 图

主题

  • 机器学习 (cs.LG)
  • 无序系统与神经网络 (cond-mat.dis-nn)
  • 密码学与安全 (cs.CR)

引用

Cite as: arXiv:2510.26792 (cs.LG)

或针对本版本: arXiv:2510.26792v2 (cs.LG)

DOI

https://doi.org/10.48550/arXiv.2510.26792 – arXiv‑issued DOI via DataCite

提交历史

  • v1 – Thu, 30 Oct 2025 17:59:09 UTC (12,235 KB) – submitted by Tao Tao
  • v2 – Mon, 16 Feb 2026 23:41:23 UTC (17,937 KB)
0 浏览
Back to Blog

相关文章

阅读更多 »

白宫考虑在发布前审查AI模型

抱歉,我需要您提供要翻译的具体摘录或摘要文本,才能为您进行翻译。请粘贴相应的内容,我会尽快为您翻译成简体中文。