[Paper] 语义分块与自然语言的熵

发布: 3天前 (2026年2月14日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13194v1

概述

论文《Semantic Chunking and the Entropy of Natural Language》提出了一种全新的统计模型，解释了书面英语为何高度冗余——信息量约比随机字符序列少 80 %。通过将文本视为语义连贯的“块”层次结构，作者推导出与经典估计（≈ 每字符 1 比特）相匹配的熵率，并展示了该率如何随语料库的语义复杂度而变化。

关键贡献

语义块模型: 引入一种自相似、多尺度的文本分割，将文本划分为基于意义的单元，细至单词。
分析熵推导: 提供基于第一原理的语言熵率计算，与经验测量相吻合。
参数将冗余链接到复杂性: 表明单一自由参数即可捕获语料库的语义丰富度，预测熵的系统性变化。
实证验证: 将模型与现代大型语言模型（LLM）和公共数据集进行基准测试，展示在层次结构各层面的定量一致性。
跨学科洞见: 将统计力学、信息论和自然语言处理（NLP）的概念相结合。

方法论

层次分块:
- 文本递归地划分为语义块（例如，段落 → 句子 → 短语 → 单词）。
- 每次划分遵循一个依赖于语义复杂度参数 θ 的概率规则，控制块进一步细分的频率。
统计建模:
- 将每个块视为一个随机变量，其分布以父块的意义为条件。
- 使用自相似（尺度不变）假设：划分的统计规则在每一层都是相同的，从而实现闭式计算。
熵计算:
- 通过对所有层次的贡献求和，利用父子块之间的类马尔可夫依赖，推导熵率（每字符比特数）。
- 模型预测的熵率
  [ H = \frac{1}{\log_2 e}, \frac{1}{1+\theta} ]
  （简化示例），当 θ 与典型英语文本相匹配时，熵率收敛到经典的约 1 比特/字符。
实验验证:
- 使用 GPT‑4、LLaMA 以及开源语料库（维基百科、古腾堡计划）进行大规模实验。
- 通过基于 token 级别的惊讶度测量经验块熵，并与模型预测进行比较。

结果与发现

Entropy Match（熵匹配）: 模型预测的熵率（≈ 0.97 bits/character）与印刷英文的历史估计值（≈ 1 bit/character）非常接近。
Redundancy Explained（冗余解释）: 分层块化解释了约 80 % 的冗余，表明大部分信息在更高层次的语义单元中被捕获，而不是在原始字符层面。
Complexity Dependence（复杂度依赖）: 通过改变 θ 展示了熵率随语料库语义丰富度单调增加的趋势（例如，科学文章 vs. 儿童故事）。
LLM Consistency（大语言模型一致性）: 来自最先进 LLM 的惊讶度（Surprisal）模式遵循模型预测的相同分层衰减，暗示这些模型隐式学习了基于块的表征。

实际意义

压缩与存储： 理解层次冗余可以启发更高效的文本压缩算法，这些算法在语义块而非字节流上进行操作。
LLM 训练效率： 通过将分词和训练目标与自然块层次对齐，开发者可以减少实现目标困惑度所需的数据量。
可解释 AI： 块划分框架提供了一种透明的方式来解释模型为何预测特定 token——其决策可以追溯到所包含块的语义。
NLP 课程设计： 数据集可以按语义复杂度 (θ) 进行组织，逐步训练模型，可能提升在低资源或特定领域任务上的泛化能力。
自适应生成： 生成流水线可以动态调整块粒度，从而产生更连贯的长文本输出（例如，更好的段落规划）。

限制与未来工作

**简化假设：**模型假设完美的自相似性和马尔可夫依赖性，但在高度不规则或富有创意的文本（如诗歌、代码）中可能不成立。
**单一自由参数：**虽然 θ 捕捉语义复杂度，实际语料库可能需要多个维度（例如句法深度、话语结构）来进行更细致的建模。
**经验范围：**验证主要针对英语和少数大型语言模型；将其扩展到多语言环境和特定领域语料仍是未解之题。
**与现有工具的集成：**将理论上的分块过程转化为实际的分词器或预处理流水线需要工程投入和基准测试。

作者

Weishun Zhong
Doron Sivan
Tankut Can
Mikhail Katkov
Misha Tsodyks

论文信息

arXiv ID: 2602.13194v1
分类: cs.CL, cond-mat.dis-nn, cond-mat.stat-mech, cs.AI
发表时间: 2026年2月13日
PDF: Download PDF

[Paper] 语义分块与自然语言的熵

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] 量化鲁棒 LLM 遗忘通过低秩适配

[Paper] SCOPE：选择性共形优化成对 LLM 评判

[Paper] LCSB：层循环选择性反向传播用于内存高效的设备端大语言模型微调