我破解了 GPT-2：我如何利用几何证明语义崩塌（The Ainex Limit）

发布: 1个月前 (2026年1月8日 GMT+8 01:30)

5 分钟阅读

Source: Dev.to

TL;DR

我让 GPT‑2 通过自己的输出进行学习，循环 20 代。到第 20 代时，模型失去了 66 % 的语义体积，并开始出现诸如“鳄鱼是物理学的基本定律”之类的幻觉。下面是实验的数学原理和代码。

大家都在讨论数据短缺以及业界提出的解决方案：合成数据——用其他模型生成的数据来训练模型。这听起来像是永动机，但如果你不断复印复印件，得到的不是无限的纸张，而是噪声。我想找到 LLM 与现实脱节的确切 “破裂点”，我称之为 Ainex 极限。

大多数研究者使用 perplexity（困惑度） 来衡量模型性能，但困惑度只衡量模型有多“困惑”。一个自信但错误的陈述也可能拥有低困惑度。我需要一种衡量意义而非置信度的指标。

我把模型的 “大脑” 看作几何空间。

假设： 健康的模型占据大而宽阔的体积（创造力）。崩溃的模型会收缩成密集、重复的 “黑洞”。

循环在前五代运行顺畅；此后指标开始急剧恶化。

到第 20 代时，语义体积 ($V_{\text{hull}}$) 已经塌缩 66.86 %。更令人惊讶的是出现的幻觉。

控制提示：“物理学的基本定律规定 …”

模型不仅忘记了物理学，它创造了一个新现实：鳄鱼是原子定律的一部分。由于模型在自己的输出上进行训练，这个幻觉成为了下一代的 “真实” 数据。

Showing the dashboard
图 1：Ainex 仪表盘显示体积损失与欧氏漂移之间的关联。

使用 3‑D PCA 我们实际上可以看到脑部损伤。绿色点代表健康、多样的人类基线；熔岩色点代表塌缩的 AI——一个紧凑、漂移的簇，远离现实。

PCA Point Cloud
图 2：从人类基线（绿色）到 AI 疯狂（熔岩色）的漂移。

实验表明，天真的合成训练会导致不可逆的 模型自噬（自我吞噬）。如果没有几何防护——例如本文提出的 Ainex 指标——未来的模型不仅会不准确，还可能自信地变得疯狂。

代码已开源，欢迎社区来破坏、修复或扩展它。

标签： #machinelearning #python #ai #datascience