[Paper] 大语言模型与英语的熵

发布: 1个月前 (2026年1月1日 GMT+8 00:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.24969v1

概述

作者们利用最先进的大型语言模型（LLM）来探究在英语文本中，随着上下文长度的增加，能够预测角色信息的程度。他们的分析表明，即使上下文扩展到 约 10 000 字符，条件熵仍在持续下降，揭示了自然语言中出乎意料的长程依赖性。这一发现重新塑造了我们对语言建模、压缩以及文本统计物理的认识。

Data Collection – 本研究从多个英文文本来源（书籍、新闻、网络文本）中抽取数据，以确保覆盖面广。
LLM Probing – 使用预训练的基于 Transformer 的大语言模型（例如 GPT‑style 架构）来计算每个字符在给定长度为 N 的前置上下文下的 conditional probability。
Entropy Estimation – 对于每个 N，计算 cross‑entropy（平均码长）：

$$
H(N) = -\frac{1}{L}\sum_{i=1}^{L}\log_2 P(c_i \mid c_{i-N}^{i-1})
$$

其中 (c_i) 为第 i 个字符，(L) 为序列总长度。
Correlation Checks – 与模型无关，作者计算相隔最多 10 k 位置的字符对之间的互信息，以确认观察到的熵下降不是模型的伪象。
Training‑time Analysis – 通过在不同训练步骤对 LLM 进行检查点保存，追踪 (H(N)) 在短上下文（N < 100）和长上下文（N > 1 000）下的演变。

所有步骤均使用标准深度学习库（PyTorch/TensorFlow）和开源统计工具实现，使得该流水线对开发者可复现。

更好的压缩算法 – 认识到有意义的可预测性可延伸至数千字符，可激发新的文本压缩器，保持更大的滑动窗口，从而在长文档上实现更高的压缩率。
提示工程与检索增强生成 – 对于基于大语言模型的应用（代码助手、聊天机器人），提供更长的上下文窗口（或使用模拟该窗口的检索机制）可以释放出更连贯、全局一致的输出。
模型架构设计 – 对长程结构的逐步获取表明 记忆增强 或 层次化 Transformer 在为远距离依赖分配专用容量方面具有优势。
评估基准 – 熵与上下文曲线为未来的大语言模型提供了量化基准：若模型较早趋于平坦，可能缺失长程语言线索。
统计物理建模 – 试图将语言映射到自旋玻璃或聚合物模型的研究者现在拥有具体的熵尺度数据，可用于校准其理论。

未来的研究方向包括将分析扩展到 兆字节级上下文，探索推理期间的 自适应上下文窗口，以及整合 物理启发的正则化项，明确鼓励长程一致性。