梯度下降算步长选择
1. 梯度下降更新规则
梯度下降的基本更新公式:
其中: -
为简化记号,令
2. 用中值定理表示损失函数的变化
多变量中值定理:存在
3. 代入梯度下降的更新量
将
4. Lipschitz 连续性假设
假设:存在常数
这个条件等价于 Hessian 矩阵的最大特征值
5. Hessian 矩阵简介
Hessian 矩阵
Lipschitz 常数
6. 利用二阶泰勒展开推导下降不等式
6.1 二阶泰勒展开(拉格朗日余项)
在
其中
6.2 应用 Lipschitz 条件控制二次型
由 Lipschitz 条件,
这就是最终的不等式。
7. 步长上限推导
为了保证损失函数一定下降,需要
结论:步长必须小于
8. 最优步长推导
我们希望最大化每一步的下降量,即最大化系数
令导数为零:
最大值:
结论:最优步长为
9. 总结表
| 概念 | 公式 | 含义 |
|---|---|---|
| Lipschitz 常数 | 梯度的最大变化速率 | |
| 步长上限 | 超过此值可能发散 | |
| 最优步长 | 理论最快收敛步长 | |
| 最小下降量 | 每一步至少下降这么多 |
实际建议: - 已知