[Paper] 大语言模型中的熵

发布: (2026年2月24日 GMT+8 01:02)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.20052v1

Source:

概述

本文将现代大型语言模型(LLM)的输出视为一种信息源,该信息源不断从固定字母表中发出词语。通过对 LLM 的生成过程进行概率建模,作者测量了每词熵——这一经典的不确定性度量,并将其与在 Open American National Corpus(OANC)中捕获的自然语言熵进行比较。关键发现是,LLM 生成的文本在词级熵上低于书面和口头的人类语言,这表明 LLM 生成的文本在统计上更可预测。

关键贡献

  • 针对 LLM 的形式熵框架 – 引入一种概率模型,将 LLM 视为平稳源,从而实现严格的熵计算。
  • 实证比较 – 计算多个 LLM 的词级熵,并将其与 OANC 语料库(包括书面和口语体)进行基准对比。
  • 不确定性降低的证据 – 表明 LLM 的熵始终低于自然语言,量化了 LLM 输出“更规律”的直觉。
  • 自我训练分析的基础 – 讨论这些熵测量如何帮助评估在由 LLM 生成的数据(例如网络抓取文本)上训练未来 LLM 的影响。

方法论

  1. 将 LLM 建模为平稳源 – 作者假设每个 token(词)都来自一个固定的概率分布,该分布随时间不变,类似经典信息论中的源模型。
  2. 熵估计 – 使用标准的 Shannon 熵公式 (H = -\sum p(w) \log_2 p(w)),其中 (p(w)) 是在大规模生成样本中词 (w) 的经验频率,计算每词熵。
  3. 数据收集 – 从具有代表性的 LLM(架构和规模细节抽象化)生成大文本样本,并将其分词为词。
  4. 参考语料库 – Open American National Corpus (OANC) 提供了平衡的美式英语书面和口语集合;其词频用于计算人类语言基线熵。
  5. 比较 – 对比两者的熵值,并通过 bootstrap 重抽样评估统计显著性。

结果与发现

  • LLM 熵 ≈ 9.1 比特/词(示例图) vs. OANC 书面 ≈ 10.3 比特/词OANC 口语 ≈ 10.7 比特/词
  • 该差距在多个随机种子和采样长度下仍然存在,表明不确定性的降低具有鲁棒性。
  • 较低的熵与下一个词的可预测性更高相关,这与 LLM 通过最大化训练数据似然进行训练的方式相一致。
  • 研究表明,LLM 由于其训练目标,趋向于一种“压缩”版的语言,消除了一些人类交流中自然的变异性。

实际意义

  • 内容生成工具 – 开发聊天机器人、摘要器或代码助手的开发者应注意,LLM 生成的文本可能过于确定性,从而限制输出的创造性或多样性。
  • 数据增强 – 使用 LLM 生成的文本来扩充训练数据集可能会无意中降低语料库的整体熵,导致模型过拟合于更狭窄的语言风格。
  • 评估指标 – 熵可以作为基准测试 LLM 时的额外诊断指标,补充 perplexity 和 BLEU 分数,以检测语言是否过于“平滑”。
  • 安全与偏见 – 较低的熵可能掩盖稀有但重要的语言模式(例如少数族裔方言),因此下游应用需要设置保障措施,以保持语言多样性。
  • 压缩与存储 – 由于 LLM 输出更具可预测性,下游流水线(如日志记录、传输)可以利用更高的压缩比而不损失保真度。

限制与未来工作

  • Stationarity assumption – 实际的大语言模型表现出上下文相关的动态;将它们视为平稳来源可以简化分析,但可能忽略长期依赖。
  • Single‑model focus – 本文评估了一个(或有限集合的)大语言模型;对于具有不同架构或训练方案的模型,结果可能会有所不同。
  • Word‑level granularity – 熵在词级别上进行测量;子词或字符级别的熵可能揭示不同的模式,尤其是对形态丰富的语言。
  • Impact on downstream tasks – 虽然已量化熵差异,但对具体应用(例如代码生成、翻译)的实际影响仍有待探索。
  • Self‑training feedback loops – 未来工作应实证测试将低熵的大语言模型生成数据重新投入训练流程如何影响后续生成的熵。

作者

  • Marco Scharringhausen

论文信息

  • arXiv ID: 2602.20052v1
  • 分类: cs.CL
  • 出版日期: 2026年2月23日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »