使用 Transformer 学习伪随机数

发布: 1天前 (2026年5月3日 GMT+8 15:21)

3 分钟阅读

Source: Hacker News

摘要

我们研究了 Transformer 模型学习由 置换同余生成器 (PCGs) 产生的序列的能力，PCG 是一种广泛使用的伪随机数生成器（PRNG）家族。PCG 通过对隐藏状态施加一系列按位移位、异或、旋转和截断，较线性同余生成器（LCG）引入了显著的额外难度。我们展示，即便在未见过的多种 PCG 变体的序列上，Transformer 仍能在上下文中成功预测，这些任务超出了已发表的经典攻击范围。

在实验中，我们将模数扩展至 $2^{22}$，使用最多 5000 万模型参数和最多 50 亿 token 的数据集。令人惊讶的是，即使输出被截断为单个位，模型也能可靠地进行预测。当在训练期间同时呈现多个不同的 PRNG 时，模型能够共同学习它们，识别来自不同置换的结构。

我们展示了一个关于模数 $m$ 的尺度律：实现近乎完美预测所需的上下文序列元素数量随 $\sqrt{m}$ 增长。对于更大的模数，优化会进入延长的停滞阶段；学习模数 $m \ge 2^{20}$ 需要引入来自较小模数的训练数据，体现了课程学习的关键必要性。

最后，我们分析了嵌入层并发现了一种新颖的聚类现象：最高主成分会自发地将整数输入按位旋转不变地聚类，揭示了表示如何从较小模数迁移到较大模数的机制。

10 + 13 页
8 + 21 图

主题

机器学习 (cs.LG)
无序系统与神经网络 (cond-mat.dis-nn)
密码学与安全 (cs.CR)

引用

Cite as: arXiv:2510.26792 (cs.LG)

或针对本版本: arXiv:2510.26792v2 (cs.LG)

DOI

https://doi.org/10.48550/arXiv.2510.26792 – arXiv‑issued DOI via DataCite

提交历史

v1 – Thu, 30 Oct 2025 17:59:09 UTC (12,235 KB) – submitted by Tao Tao
v2 – Mon, 16 Feb 2026 23:41:23 UTC (17,937 KB)

使用 Transformer 学习伪随机数

摘要

评论

主题

引用

DOI

提交历史

相关文章

白宫考虑在发布前审查AI模型

确保 DoD 承包商的安全：发现 Multi-Tenant Authorization Vulnerability

保护 DoD 承包商：发现多租户授权漏洞

美国军事数据在andreessen-horowitz创业公司被暴露达150天