一、学习率的含义
学习率(Learning Rate)是机器学习中控制模型参数更新步长的超参数。它决定了每次迭代中,模型根据损失函数的梯度调整参数的幅度。
通俗理解:
想象你正在下山(寻找最低点),学习率就像你每一步迈的“步子大小”。步子太大(学习率过高)可能会跨过最低点甚至越走越偏;步子太小(学习率过低)则会下山极慢,甚至卡在半山腰。合适的学习率能让你高效、稳定地到达谷底(最优解)。
二、学习率(α)对梯度下降的影响
这幅图片展示了梯度下降中学习率(α)的影响。公式 w = w - α * (d/dw J(w))
表示参数 w
的更新过程,其中 α
是学习率,J(w)
是损失函数。
图片内容分两部分:
1. 学习率太小(α too small):梯度下降速度缓慢,收敛需要更多迭代。
2. 学习率太大(α too large):梯度下降可能(1)越过最优解(Overshoot),无法收敛;(2)甚至发散。
图片通过对比直观说明了选择合适学习率的重要性。
三、局部最小值对梯度下降的影响
这幅图片解释了梯度下降在“局部最小值”(local minimum)处的行为,关键点如下:
1. 核心公式:参数更新规则 W = W - α * (d/dw J(W))
,当梯度 d/dw J(W)
为零时(即到达极值点),参数 W
停止更新。
2. 示例场景:当前参数值 W = 5
时,损失函数 J(W)
的梯度为零d/dw J(W) = 0
),因此 W
的更新公式退化为 W = W - α * 0
,参数保持不变。
3. 数学标注:图中用 slope = 0
和 local minimum
强调此时处于局部最小值,梯度下降无法进一步优化。
图片核心结论:当梯度为零时,无论学习率(α)取何值,参数更新都会停止,这是梯度下降的一个固有特性。
四、固定学习率(α)下梯度下降收敛到局部最小值的行为
这幅图片讨论了“固定学习率(α)下梯度下降收敛到局部最小值的行为”,主要内容分为三部分:
1. 核心公式与更新逻辑
当学习率(α)固定时,参数的更新完全依赖于梯度 d/dw(J(w))的大小。
2. 靠近局部最小值时的关键现象
- 梯度逐渐变小:随着参数 w 接近局部最小值,损失函数 J(w)的导数(梯度)d/dw(J(w)) 会趋近于零。
- 更新步长自动减小:由于步长 = 学习率 × 梯度,梯度变小时,步长自然减小(即使α固定),最终使参数 w 稳定在最小值附近。
- 图中用文字标注:
Near a local minimum, derivative becomes smaller, update steps become smaller
3. 思考问题:
Can reach minimum without decreasing learning?
- 答案:可以。因为梯度本身会变小,即使α固定,步长也会自动收缩,最终收敛。
- 对比动态学习率:许多优化算法(如Adam)会动态调整α以加速收敛,但固定α在理论上是可行的(尽管实践中可能需要更多迭代)。
五、学习率(α)的选择
学习率α的推荐取值:
图片列出了一组建议尝试的α值,按大约3倍的间隔递增:
0.001, 0.003, 0.010, 0.03, 0.1, 0.3, 1
标注中提到的“3X”表示相邻值之间大约相差3倍。学习率的影响:
α太小(如0.001):成本函数 J(w,b)J(w,b) 下降缓慢,收敛需要过多迭代。
α太大(如1):可能导致 J(w,b)J(w,b) 震荡甚至发散,无法收敛。
α合适(如0.01):成本函数平稳下降,能在合理迭代次数内收敛。