将会有深度学习的科学理论

发布: 7小时前 (2026年4月25日 GMT+8 02:06)

3 分钟阅读

Source: Hacker News

Authors:
Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix‑Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull

Links:

Abstract

在本文中，我们主张深度学习的科学理论正在形成。这里所指的理论能够表征神经网络的训练过程、隐藏表征、最终权重以及性能等重要属性和统计特性。我们汇总了深度学习理论研究的主要脉络，并识别出指向该理论的五大正在成长的工作方向：

可求解的理想化设置，为真实系统中的学习动力学提供直觉；
可处理的极限，揭示基本学习现象的洞见；
简洁的数学规律，捕捉重要的宏观可观测量；
超参数理论，将超参数从训练过程的其余部分解耦，留下更简化的系统；
跨系统和设置的普遍行为，阐明哪些现象需要解释。

这些工作共同具备以下宽泛特征：关注训练过程的动力学；主要致力于描述粗粒度的聚合统计；强调可证伪的定量预测。我们认为，新兴的理论最好被视为学习过程的力学，并建议称之为 learning mechanics（学习力学）。我们讨论了这种力学视角与构建深度学习理论的其他方法之间的关系，包括统计视角和信息论视角。特别是，我们预期学习力学与机制可解释性之间会形成共生关系。

我们还回顾并回应了关于基础理论不可实现或不重要的常见论点。最后，我们给出学习力学的重要开放方向画像以及对初学者的建议。更多入门材料、观点和开放问题已在 learningmechanics.pub 上发布。

Comments

41 页，6 张图

Subjects

机器学习 (stat.ML)
机器学习 (cs.LG)

Citation

arXiv: arXiv:2604.21691 (stat.ML)
Version: arXiv:2604.21691v1 (stat.ML)
DOI: 10.48550/arXiv.2604.21691 (arXiv‑issued DOI via DataCite, pending registration)

Submission history

From: Daniel Kunin [view email]
Version: v1 – Thu, 23 Apr 2026 13:58:12 UTC (3,519 KB)

将会有深度学习的科学理论

Abstract

Comments

Subjects

Citation

Submission history

相关文章

Hacker News 上的 LLM 研究正在枯竭

理解早期宇宙

请少一些人类 AI 代理

Multi-LLM上下文管理的隐藏挑战