非凸优化的均衡自适应学习率

发布: 2个月前 (2026年2月16日 GMT+8 08:10)

2 分钟阅读

原文: Dev.to

Source: Dev.to

概览

通过一个简单的调整即可更快地训练深度学习模型：ESGD。

许多网络会在平坦的区域或鞍点上卡住，导致学习速度变慢，而单一的步长无法解决这一问题。更聪明的做法是使用自适应学习率，为模型的每个部分分别调整，使得学习缓慢的部分加速，学习过快的部分减速。

传统技巧在目标函数既有上升又有下降方向时往往表现不佳，甚至会让训练变得更慢。观察曲面的曲率可以提供更好的信息，一种称为**平衡（equilibration）**的方法能够在整个模型中均衡这些曲率。

基于此提出了一种新方法，称为ESGD，它以更平稳的方式调整步长。在实际应用中，ESGD 的学习速度与 RMSProp 等流行工具相当甚至更快，几乎总是优于普通的随机梯度下降。

如果你希望模型更快收敛，并且不必在步长上费心调试，这是一项值得尝试的简单改动——许多人在切换后都观察到训练更快、更稳定，你也可能受益。

阅读完整评述：
Equilibrated adaptive learning rates for non-convex optimization