梯度下降算步长选择 | ViperEkura's Blog

1. 梯度下降更新规则

梯度下降的基本更新公式：

其中： - ：模型参数 - ：损失函数 - ：梯度（一阶导数） - ：学习率（步长）

为简化记号，令，则更新规则变为：

多变量中值定理：存在位于与之间，使得：

将代入上式：

假设：存在常数，使得对任意有：

这个条件等价于 Hessian 矩阵的最大特征值。

Hessian 矩阵是损失函数对参数向量的二阶偏导数矩阵：

Lipschitz 常数控制 Hessian 的最大曲率：对任意向量，有。

在处对展开到二阶，精确等式为：

其中位于与之间。

由 Lipschitz 条件，，代入得：

这就是最终的不等式。

为了保证损失函数一定下降，需要。因为，等价于：

结论：步长必须小于。

我们希望最大化每一步的下降量，即最大化系数。

令导数为零：

最大值：

结论：最优步长为，此时每一步损失至少下降。

实际建议： - 已知则直接用 - 未知则从小学习率开始尝试（0.001, 0.01, 0.1 等） - 自适应学习率方法（Adam、RMSprop）可自动调整