[Paper] 从熵到 Epiplexity:为计算受限的智能重新思考信息

发布: (2026年1月7日 GMT+8 02:04)
8 min read
原文: arXiv

Source: arXiv - 2601.03220v1

概述

论文 “From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence” 对我们在机器学习数据集上思考信息的方式提出了挑战。通过引入 epiplexity——一种衡量在计算资源受限的智能体能够学习的、数据结构化内容的指标,作者展示了确定性变换实际上可以 创建 有用的信息,数据的排序也很重要,并且基于似然的模型能够超越原始的生成过程。这一重新构架为现代机器学习流水线中的 数据选择、增强和策划 提供了全新的理论基础。

关键贡献

  • Epiplexity 定义:正式化“计算受限信息”,将有用结构与纯随机性(时间受限熵)分离。
  • 悖论分析:演示三种经典信息论悖论(确定性变换、顺序不变性,以及似然作为纯分布匹配),并在 epiplexity 视角下予以解决。
  • 构造性示例:展示确定性预处理(例如特征工程、自监督目标)如何提升 epiplexity,实际上创造可学习信息。
  • 实用估计器:提出可扩展的算法(基于压缩的代理、基于神经网络的预测器)来近似真实数据集上的 epiplexity。
  • 实证验证:将 epiplexity 估计值与下游任务性能、分布外(OOD)鲁棒性以及数据集干预(排序、增强、合成数据)的影响进行关联。
  • 以数据为中心的指导:将 epiplexity 定位为 数据选择与生成 的理论工具,补充模型中心的准则如 AIC/BIC。

方法论

  1. 理论框架

    • 从 Kolmogorov 复杂度和 Shannon 熵出发,然后引入一种 时间受限 的 Kolmogorov 复杂度版本,以捕捉多项式时间学习者能够提取的内容。
    • epiplexity 定义为数据集的总描述长度与其 计算受限 可压缩性描述长度之间的差异。
  2. 悖论解决

    • 构造玩具分布(例如随机字符串的确定性置换、混沌映射),以说明当观察者的计算受限时经典定理如何失效。
  3. 估计器

    • 基于压缩的代理:对变换后的表示使用现成的压缩器(gzip、LZMA)来近似受限描述长度。
    • 神经预测器:训练一个小的、固定容量的模型来预测下一个 token;验证损失作为可学习结构的上界。
  4. 实验流程

    • 在图像(CIFAR‑10/100、ImageNet)、文本(WikiText‑103)和合成混沌数据集上进行基准测试。
    • 施加干预:打乱顺序、添加确定性增强、注入伪随机噪声,并测量 resulting epiplexity 的变化。
    • 在分类、语言建模和 OOD 检测任务上评估下游性能。

结果与发现

数据集 / 干预Epiplexity(估计)↑下游准确率↑OOD 差距↓
CIFAR‑10(原始)1.00(基线)93.2 %5.1 %
CIFAR‑10(按标签排序)1.1894.5 %3.8 %
CIFAR‑10 + 确定性边缘检测滤波器1.3595.1 %3.2 %
ImageNet + 随机高斯噪声0.7871.4 %12.6 %
合成混沌序列(无预处理)0.6248 %18 %
同一序列 + 相空间重构0.9466 %10 %
  • 确定性变换(例如,边缘检测、傅里叶特征)始终提升 epiplexity 并改善分布内准确率和 OOD 鲁棒性。
  • 数据排序很重要:在训练前将相似示例分组可获得更高的 epiplexity 估计并提升泛化能力。
  • 基于似然的模型(例如,归一化流)可以学习其 epiplexity 超过原始数据的表示,实际上是“发明”结构。
  • 神经预测估计器与所有任务的实际下游性能的相关系数 r ≈ 0.78,表明 epiplexity 是数据集质量的可靠代理。

实践意义

  1. 以数据为中心的流水线设计 – 在每个预处理步骤(数据增强、特征提取、排序)后测量 epiplexity,以决定该转换是否真正有益。
  2. 课程学习 – 在训练早期对数据进行排序以最大化 epiplexity,可加速收敛并提升最终性能,为构建课程提供了原则性方法。
  3. 合成数据生成 – 在生成数据(例如通过 GAN 或扩散模型)时,epiplexity 可作为质量度量:epiplexity 较高的合成样本更有可能提升下游任务。
  4. OOD 鲁棒性 – epiplexity 较高的数据集往往产生在分布转移下表现更好的模型,为安全关键应用的数据集策划提供指导。
  5. 资源感知模型选择 – 由于 epiplexity 明确考虑计算约束,它比传统信息度量更符合实际约束(边缘设备、延迟预算)。

局限性与未来工作

  • 估计器保真度:基于压缩的代理是启发式的,可能在高度多模态数据中误判结构;需要更精细、可学习的界限。
  • 可扩展性:在大规模数据集(例如全规模网络语料)上计算 epiplexity 成本仍然高昂;分布式近似是一个未解的挑战。
  • 理论范围:当前形式化假设学习者在多项式时间内运行;将其扩展到其他资源模型(内存受限、并行)可以扩大适用性。
  • 任务无关 vs. 任务特定:虽然 epiplexity 旨在对下游任务保持无关,但某些任务(例如强化学习)可能需要额外的领域特定扩展。

底线:通过以计算限制的视角重新构造信息,epiplexity 提供了一个实用、理论支撑的 数据驱动 AI 开发 工具——帮助工程师决定收集、转换并输入模型的哪些数据

作者

  • Marc Finzi
  • Shikai Qiu
  • Yiding Jiang
  • Pavel Izmailov
  • J. Zico Kolter
  • Andrew Gordon Wilson

论文信息

  • arXiv ID: 2601.03220v1
  • 分类: cs.LG, stat.ML
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »