[Paper] 从熵到 Epiplexity：为计算受限的智能重新思考信息

发布: 1个月前 (2026年1月7日 GMT+8 02:04)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.03220v1

概述

论文 “From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence” 对我们在机器学习数据集上思考信息的方式提出了挑战。通过引入 epiplexity——一种衡量在计算资源受限的智能体能够学习的、数据结构化内容的指标，作者展示了确定性变换实际上可以创建有用的信息，数据的排序也很重要，并且基于似然的模型能够超越原始的生成过程。这一重新构架为现代机器学习流水线中的 数据选择、增强和策划 提供了全新的理论基础。

关键贡献

Epiplexity 定义：正式化“计算受限信息”，将有用结构与纯随机性（时间受限熵）分离。
悖论分析：演示三种经典信息论悖论（确定性变换、顺序不变性，以及似然作为纯分布匹配），并在 epiplexity 视角下予以解决。
构造性示例：展示确定性预处理（例如特征工程、自监督目标）如何提升 epiplexity，实际上创造可学习信息。
实用估计器：提出可扩展的算法（基于压缩的代理、基于神经网络的预测器）来近似真实数据集上的 epiplexity。
实证验证：将 epiplexity 估计值与下游任务性能、分布外（OOD）鲁棒性以及数据集干预（排序、增强、合成数据）的影响进行关联。
以数据为中心的指导：将 epiplexity 定位为 数据选择与生成 的理论工具，补充模型中心的准则如 AIC/BIC。

方法论

理论框架
- 从 Kolmogorov 复杂度和 Shannon 熵出发，然后引入一种 时间受限 的 Kolmogorov 复杂度版本，以捕捉多项式时间学习者能够提取的内容。
- 将 epiplexity 定义为数据集的总描述长度与其 计算受限 可压缩性描述长度之间的差异。
悖论解决
- 构造玩具分布（例如随机字符串的确定性置换、混沌映射），以说明当观察者的计算受限时经典定理如何失效。
估计器
- 基于压缩的代理：对变换后的表示使用现成的压缩器（gzip、LZMA）来近似受限描述长度。
- 神经预测器：训练一个小的、固定容量的模型来预测下一个 token；验证损失作为可学习结构的上界。
实验流程
- 在图像（CIFAR‑10/100、ImageNet）、文本（WikiText‑103）和合成混沌数据集上进行基准测试。
- 施加干预：打乱顺序、添加确定性增强、注入伪随机噪声，并测量 resulting epiplexity 的变化。
- 在分类、语言建模和 OOD 检测任务上评估下游性能。

结果与发现

数据集 / 干预	Epiplexity（估计）↑	下游准确率↑	OOD 差距↓
CIFAR‑10（原始）	1.00（基线）	93.2 %	5.1 %
CIFAR‑10（按标签排序）	1.18	94.5 %	3.8 %
CIFAR‑10 + 确定性边缘检测滤波器	1.35	95.1 %	3.2 %
ImageNet + 随机高斯噪声	0.78	71.4 %	12.6 %
合成混沌序列（无预处理）	0.62	48 %	18 %
同一序列 + 相空间重构	0.94	66 %	10 %

确定性变换（例如，边缘检测、傅里叶特征）始终提升 epiplexity 并改善分布内准确率和 OOD 鲁棒性。
数据排序很重要：在训练前将相似示例分组可获得更高的 epiplexity 估计并提升泛化能力。
基于似然的模型（例如，归一化流）可以学习其 epiplexity 超过原始数据的表示，实际上是“发明”结构。
神经预测估计器与所有任务的实际下游性能的相关系数 r ≈ 0.78，表明 epiplexity 是数据集质量的可靠代理。

实践意义

以数据为中心的流水线设计 – 在每个预处理步骤（数据增强、特征提取、排序）后测量 epiplexity，以决定该转换是否真正有益。
课程学习 – 在训练早期对数据进行排序以最大化 epiplexity，可加速收敛并提升最终性能，为构建课程提供了原则性方法。
合成数据生成 – 在生成数据（例如通过 GAN 或扩散模型）时，epiplexity 可作为质量度量：epiplexity 较高的合成样本更有可能提升下游任务。
OOD 鲁棒性 – epiplexity 较高的数据集往往产生在分布转移下表现更好的模型，为安全关键应用的数据集策划提供指导。
资源感知模型选择 – 由于 epiplexity 明确考虑计算约束，它比传统信息度量更符合实际约束（边缘设备、延迟预算）。

局限性与未来工作

估计器保真度：基于压缩的代理是启发式的，可能在高度多模态数据中误判结构；需要更精细、可学习的界限。
可扩展性：在大规模数据集（例如全规模网络语料）上计算 epiplexity 成本仍然高昂；分布式近似是一个未解的挑战。
理论范围：当前形式化假设学习者在多项式时间内运行；将其扩展到其他资源模型（内存受限、并行）可以扩大适用性。
任务无关 vs. 任务特定：虽然 epiplexity 旨在对下游任务保持无关，但某些任务（例如强化学习）可能需要额外的领域特定扩展。

底线：通过以计算限制的视角重新构造信息，epiplexity 提供了一个实用、理论支撑的 数据驱动 AI 开发 工具——帮助工程师决定收集、转换并输入模型的哪些数据。

作者

Marc Finzi
Shikai Qiu
Yiding Jiang
Pavel Izmailov
J. Zico Kolter
Andrew Gordon Wilson

论文信息

arXiv ID: 2601.03220v1
分类: cs.LG, stat.ML
出版日期: 2026年1月6日
PDF: 下载 PDF

[Paper] 从熵到 Epiplexity：为计算受限的智能重新思考信息

概述

关键贡献

方法论

结果与发现

实践意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性