Learning Rate|学习率

bolin
发布于 2025-06-17 / 7 阅读
0
0

Learning Rate|学习率

一、学习率的含义

学习率(Learning Rate)是机器学习中控制模型参数更新步长的超参数。它决定了每次迭代中,模型根据损失函数的梯度调整参数的幅度。

通俗理解:
想象你正在下山(寻找最低点),学习率就像你每一步迈的“步子大小”。步子太大(学习率过高)可能会跨过最低点甚至越走越偏;步子太小(学习率过低)则会下山极慢,甚至卡在半山腰。合适的学习率能让你高效、稳定地到达谷底(最优解)。


二、学习率(α)对梯度下降的影响

学习率(图1).png

这幅图片展示了梯度下降中学习率(α)的影响。公式 w = w - α * (d/dw J(w)) 表示参数 w 的更新过程,其中 α 是学习率,J(w) 是损失函数。

图片内容分两部分:

1. 学习率太小(α too small):梯度下降速度缓慢,收敛需要更多迭代。

2. 学习率太大(α too large):梯度下降可能(1)越过最优解(Overshoot),无法收敛;(2)甚至发散。

图片通过对比直观说明了选择合适学习率的重要性。


三、局部最小值对梯度下降的影响

学习率(图2).png

这幅图片解释了梯度下降在“局部最小值”(local minimum)处的行为,关键点如下:

1. 核心公式:参数更新规则 W = W - α * (d/dw J(W)),当梯度 d/dw J(W) 为零时(即到达极值点),参数 W 停止更新。

2. 示例场景:当前参数值 W = 5 时,损失函数 J(W) 的梯度为零d/dw J(W) = 0),因此 W 的更新公式退化为 W = W - α * 0,参数保持不变。

3. 数学标注:图中用 slope = 0local minimum 强调此时处于局部最小值,梯度下降无法进一步优化。

图片核心结论:当梯度为零时,无论学习率(α)取何值,参数更新都会停止,这是梯度下降的一个固有特性。


四、固定学习率(α)下梯度下降收敛到局部最小值的行为

学习率(图3).png

这幅图片讨论了“固定学习率(α)下梯度下降收敛到局部最小值的行为”,主要内容分为三部分:

1. 核心公式与更新逻辑

学习率(图4).png

当学习率(α)固定时,参数的更新完全依赖于梯度 d/dw(J(w))的大小。

2. 靠近局部最小值时的关键现象

- 梯度逐渐变小:随着参数 w 接近局部最小值,损失函数 J(w)的导数(梯度)d/dw(J(w)) 会趋近于零。

- 更新步长自动减小:由于步长 = 学习率 × 梯度,梯度变小时,步长自然减小(即使α固定),最终使参数 w 稳定在最小值附近。

- 图中用文字标注:

Near a local minimum, derivative becomes smaller, update steps become smaller

3. 思考问题:

Can reach minimum without decreasing learning?

- 答案:可以。因为梯度本身会变小,即使α固定,步长也会自动收缩,最终收敛。

- 对比动态学习率:许多优化算法(如Adam)会动态调整α以加速收敛,但固定α在理论上是可行的(尽管实践中可能需要更多迭代)。


五、学习率(α)的选择

学习率(图5).png

  1. 学习率α的推荐取值
    图片列出了一组建议尝试的α值,按大约3倍的间隔递增:
    0.001, 0.003, 0.010, 0.03, 0.1, 0.3, 1
    标注中提到的“3X”表示相邻值之间大约相差3倍。

  2. 学习率的影响

    • α太小(如0.001):成本函数 J(w,b)J(w,b) 下降缓慢,收敛需要过多迭代。

    • α太大(如1):可能导致 J(w,b)J(w,b) 震荡甚至发散,无法收敛。

    • α合适(如0.01):成本函数平稳下降,能在合理迭代次数内收敛。


评论