[Paper] 大语言模型与英语的熵

发布: (2026年1月1日 GMT+8 00:54)
7 min read
原文: arXiv

Source: arXiv - 2512.24969v1

概述

作者们利用最先进的大型语言模型(LLM)来探究在英语文本中,随着上下文长度的增加,能够预测角色信息的程度。他们的分析表明,即使上下文扩展到 约 10 000 字符,条件熵仍在持续下降,揭示了自然语言中出乎意料的长程依赖性。这一发现重新塑造了我们对语言建模、压缩以及文本统计物理的认识。

关键贡献

  • 超长程结构的经验性证据:展示条件熵(或码长)在上下文长度达到约 10 k字符时仍然下降,适用于多种英语语料库。
  • 模型无关的相关性检测:直接从原始数据中验证了在这些大距离上存在细小但统计显著的字符级相关性。
  • 熵分布分析:表明随着上下文的增大,单字符码长的分布趋于收敛,暗示对越来越多字符的确定性在逐步显现。
  • 训练动态洞察:识别出在 LLM 训练过程中短上下文与长上下文的学习阶段截然不同,暗示长程结构是逐步获得的。
  • 基于物理的语言模型约束:提供了任何统计物理启发的语言模型必须满足的量化基准。

方法论

  1. Data Collection – 本研究从多个英文文本来源(书籍、新闻、网络文本)中抽取数据,以确保覆盖面广。

  2. LLM Probing – 使用预训练的基于 Transformer 的大语言模型(例如 GPT‑style 架构)来计算每个字符在给定长度为 N 的前置上下文下的 conditional probability

  3. Entropy Estimation – 对于每个 N,计算 cross‑entropy(平均码长):

    $$
    H(N) = -\frac{1}{L}\sum_{i=1}^{L}\log_2 P(c_i \mid c_{i-N}^{i-1})
    $$

    其中 (c_i) 为第 i 个字符,(L) 为序列总长度。

  4. Correlation Checks – 与模型无关,作者计算相隔最多 10 k 位置的字符对之间的互信息,以确认观察到的熵下降不是模型的伪象。

  5. Training‑time Analysis – 通过在不同训练步骤对 LLM 进行检查点保存,追踪 (H(N)) 在短上下文(N < 100)和长上下文(N > 1 000)下的演变。

所有步骤均使用标准深度学习库(PyTorch/TensorFlow)和开源统计工具实现,使得该流水线对开发者可复现。

结果与发现

上下文长度 (N)条件熵 H(N) (bits/char)观察
10 – 100~4.5 → 4.2快速下降,反映出熟悉的短程语法。
100 – 1 000~4.2 → 3.9持续改进;捕获段落级连贯性。
1 000 – 10 000~3.9 → 3.7熵仍在下降,表明跨整段或章节的依赖关系。
>10 000平台期 (≈3.6)暗示当前模型/语料库的实际上限。
  • 相关性检测:相隔 5 k–10 k 位置的字符之间的互信息很小(约 10⁻³ 比特),但统计上显著 (p < 0.001)。
  • 训练动态:早期训练轮次快速降低短上下文的熵,而长上下文的熵下降只有在数百万梯度步之后才显著。
  • 熵分布:每字符码长的方差随 N 增大而收缩,这意味着模型对更大子集的字符(例如可预测的功能词、重复短语)更有信心。

实际意义

  1. 更好的压缩算法 – 认识到有意义的可预测性可延伸至数千字符,可激发新的文本压缩器,保持更大的滑动窗口,从而在长文档上实现更高的压缩率。
  2. 提示工程与检索增强生成 – 对于基于大语言模型的应用(代码助手、聊天机器人),提供更长的上下文窗口(或使用模拟该窗口的检索机制)可以释放出更连贯、全局一致的输出。
  3. 模型架构设计 – 对长程结构的逐步获取表明 记忆增强层次化 Transformer 在为远距离依赖分配专用容量方面具有优势。
  4. 评估基准 – 熵与上下文曲线为未来的大语言模型提供了量化基准:若模型较早趋于平坦,可能缺失长程语言线索。
  5. 统计物理建模 – 试图将语言映射到自旋玻璃或聚合物模型的研究者现在拥有具体的熵尺度数据,可用于校准其理论。

限制与未来工作

  • 字符层面关注 – 虽然字符粒度能够揭示细尺度的相关性,但词或子词层面的分析可能会发现对现代分词器更相关的额外结构。
  • 语料多样性 – 本研究主要使用标准英文散文;扩展到代码、科学写作或多语言语料可能表现出不同的尺度行为。
  • 模型系列 – 实验仅限于基于 Transformer 的大语言模型;其他架构(例如循环网络、卷积网络)可能以不同方式学习长程模式。
  • 计算成本 – 对 N ≈ 10⁴ 的熵估计需要大量 GPU 内存和推理时间,这可能限制小团队的可复现性。

未来的研究方向包括将分析扩展到 兆字节级上下文,探索推理期间的 自适应上下文窗口,以及整合 物理启发的正则化项,明确鼓励长程一致性。

作者

  • Colin Scheibner
  • Lindsay M. Smith
  • William Bialek

论文信息

  • arXiv ID: 2512.24969v1
  • Categories: cond-mat.stat-mech, cs.CL, physics.bio-ph, q-bio.NC
  • Published: 2025年12月31日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »