[Paper] 可伸缩无关的 Kolmogorov‑Arnold 几何在神经网络中的应用

发布: 2个月前 (2025年11月27日 GMT+8 01:52)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21626v1

Overview

最近的研究由 Vanherreweghe、Freedman 和 Adams 完成，表明即使是普通的两层多层感知机（MLP）在经典的 MNIST 手写数字识别任务上训练时，也会自动将内部表征组织成 Kolmogorov‑Arnold geometric (KAG) 结构。关键在于，这种几何结构表现出 尺度无关——它在仅 7 像素的小块以及完整的 28 × 28 图像上均可出现——且无论网络是否使用空间数据增强进行训练，均会出现。

Key Contributions

在高维数据中经验性确认 KAG – 将先前在合成任务中的发现扩展到真实世界数据集（784 维的 MNIST）。
多尺度空间分析 – 展示 KAG 模式从局部邻域一直存在到整幅图像。
跨训练方案的鲁棒性 – 在标准 SGD 与空间增强（旋转、平移、裁剪）下均出现相同的几何结构。
尺度无关特征化 – 引入系统化方法检验学习表征是否对观察的空间尺度保持不变。
开源分析工具箱 – 提供用于提取和可视化 KAG 结构的代码，便于复现。

Methodology

模型与数据 – 在 MNIST 训练集上训练 vanilla 2 层 MLP（784 → 256 → 10）。使用两条训练流水线：
- (a) 纯随机梯度下降（SGD），以及
- (b) 带有随机旋转、平移和随机裁剪的 SGD。
KAG 提取 – 在每个 epoch 结束后，作者记录验证子集的隐藏层激活。随后以数据驱动的方式应用 Kolmogorov‑Arnold 表示定理：
- 将输入图像划分为大小为 s × s（s = 1、3、7）的重叠补丁。
- 对每个补丁，拟合激活图的低秩近似并计算残差误差。
- 所有补丁的残差均低表明激活可以表示为补丁坐标的单变量函数之和——这是 KAG 的标志。
尺度无关测试 – 对多种补丁大小以及整幅图像（s = 28）重复上述提取。跨尺度残差均保持低值即表明几何结构不随空间粒度变化。
可视化 – 绘制学习到的单变量函数并将其叠加在数字图像上，以展示网络在不同尺度下“看到”的数据。

Results & Findings

条件	平均残差误差	跨尺度 KAG 检测
标准 SGD	0.018	在 s = 1、3、7、28 检测到
SGD + 增强	0.021	同样的多尺度检测
随机初始化（未训练）	0.112	未出现 KAG 模式

出现时机： KAG 特征在约 5 个 epoch 后统计显著，至第 15 epoch 稳定。
尺度不变性： 当从 7 像素补丁扩展到整幅图像时，残差保持在狭窄区间（±0.003），确认几何结构不依赖空间粒度。
定性洞察： 提取的单变量函数对应于与数字笔画对齐的平滑强度梯度，暗示网络捕获的是数字的形状而非像素级记忆。

Practical Implications

模型可解释性： KAG 为可视化 MLP 对空间数据“理解”提供了数学基础，可能有助于调试和建立信任。
架构设计： 认识到即使是浅层网络也会形成尺度不变几何，可激发轻量、几何感知层（如 KAG 正则化激活）的设计，以用于边缘设备。
数据增强策略： 由于 KAG 在常见增强下仍然存在，开发者可以放心使用空间变换而不必担心底层几何结构的丢失。
迁移学习： 这种尺度无关表征可作为通用特征提取器用于下游任务（如数字风格迁移、少样本学习），无需深度卷积骨干网络。
硬件加速： KAG 函数的单变量特性暗示推理时可将计算拆分为廉价的 1‑D 查表求和，降低内存带宽需求。

Limitations & Future Work

仅限于 MLP 与 MNIST： 研究未涉及更深的架构（CNN、Transformer）或更复杂的视觉数据集（CIFAR‑10、ImageNet）。
度量仍为启发式： 基于残差的 KAG 检测是代理指标；在高维空间中对 Kolmogorov‑Arnold 表示的严格统计检验仍待解决。
可解释性深度： 虽然单变量函数与数字笔画对齐，但将其与语义概念（如“环”“尾巴”）关联仍需进一步探索。
未来方向： 将分析扩展到卷积层，研究在训练期间显式正则化 KAG 的可能性，以及探索其在对抗鲁棒性中的作用。

Authors

Mathew Vanherreweghe
Michael H. Freedman
Keith M. Adams

Paper Information

arXiv ID: 2511.21626v1
Categories: cs.LG, cs.AI
Published: November 26, 2025
PDF: Download PDF

[Paper] 可伸缩无关的 Kolmogorov‑Arnold 几何在神经网络中的应用

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索