Regularization |正则化

bolin
发布于 2025-06-28 / 4 阅读
0
0

Regularization |正则化

一、正则化的定义

正则化(Regularization)是机器学习中一种防止模型过拟合的技术,通过在损失函数中引入额外的约束(如L1、L2惩罚项),限制模型参数的大小,从而提高泛化能力。

通俗理解

想象你在教一个学生解题:如果只让他死记硬背题目(过拟合),遇到新题就会出错;但若要求他“用尽量简单的步骤解题”(正则化),他反而能举一反三。正则化就是给模型这种“约束”,让它学得更通用、更简洁。

正则化(图1).png

  1. 目标:通过限制模型参数(w1,w2,⋯ ,wn,b)的大小,使模型更简单(simpler model),从而降低过拟合风险(less likely to overfit)。

  2. 模型示例:假设一个房价预测模型有100个特征(如卧室数量、楼层、收入等),对应参数 w1 到 w100 和偏置 b。

  3. 正则化公式:在原损失函数 J(w⃗,b) 中,增加了对参数平方和的惩罚项(L2正则化),形式为 ∑wj2+b2,并通过参数 λ 控制正则化强度。

  4. 灵活性:公式中部分项可选择性包含或排除(如是否对偏置 b 正则化)。


二、正则化的数学表达和参数λ选择

正则化(图2).png

  1. 优化目标:通过最小化带正则化的损失函数 J(w,b),平衡拟合误差(第一项)和参数约束(第二项,L2正则化)。

  2. 公式分解

    • 第一项是均方误差(MSE),衡量模型预测与真实值的偏差。

    • 第二项 (λ /(2m))∑wj2 惩罚大参数值,λ 控制正则化强度。

  3. 参数 λ 的作用

    • 若 λ=0,正则化失效,模型可能过拟合。

    • 若 λ 极大(如 1010),参数被强制趋近于0,模型退化为简单常数(如 f(x)=b)。

  4. 关键提示:需选择适当的 λ 以平衡拟合和泛化(图中标注 "balanced both goals")。


三、正则化线性回归

1. 正则化线性回归

正则化(图4).png

  1. 正则化损失函数
    公式与前一图片一致,包含均方误差(MSE)和L2正则化项((λ /(2m))∑wj2),目标是最小化 J(w⃗,b)。

  2. 梯度下降更新规则

    • 参数更新:通过偏导数调整 wj 和 b,学习率 αα 控制步长。

    • 正则化影响

      • 对 wj:更新时额外增加 (λ / m)wj 项,推动参数向0收缩。

      • 对 b:更新规则与未正则化时相同(无正则化项)。

    • 同步更新(simultaneous update):所有参数需在同一迭代步中更新。


2. 正则化线性回归的梯度下降具体实现

正则化(图3).png

  1. 梯度下降更新规则

    • 权重 wj 的更新

      4AD3298B-CF94-482B-AE9D-E0F391A38AC3.png

      包含两部分:

      • 原始梯度项(误差对特征 xj 的加权平均)。

      • 正则化项 (λ / m)wj,推动 wj 向零收缩。

    • 偏置 b 的更新
      与普通线性回归一致,无正则化项。

  2. 参数收缩的数学解释

    • 更新公式可重写为:

      D05C4E1C-12A6-412C-9E41-F9D08E3041F2.png

      其中 (1 − α(λ/m)) 是收缩因子(如示例中的 0.9998),每次迭代会轻微缩小 wj

  3. 同步更新
    所有参数 w1,w2,…,wn 需在同一迭代步中更新(simultaneous update)。


3. 正则化线性回归的梯度项推导过程

正则化(图5).png

  1. 目标函数
    损失函数包含均方误差和L2正则化项:

    31F7DDD7-39F2-4163-8F8E-721768DA8580.png

  2. 求导步骤

    • 第一步:对均方误差项求导,利用链式法则得到线性部分:

      100F6EF6-D6C4-45FB-87DC-A1513C4212E5.png

    • 第二步:对正则化项求导,直接得到:

      3D3EF85B-DC04-40D1-8BB5-74C11E176D0A.png

    • 合并结果:最终偏导数为:

      45ACFA50-5FB4-4456-BC85-8734C1C200EE.png

  3. 关键点
    推导显示正则化项的引入仅需在原始梯度基础上简单叠加 (λ / m)wj


四、正则化逻辑回归

1. 正则化逻辑回归

正则化(图6).png

  1. 模型定义

    • 逻辑回归通过线性组合 z=w1x1+w2x2+⋯+b 和 Sigmoid 函数 fw⃗,b(x⃗)=1 /(1+e−z )输出概率值。

    • 图中示例包含多项式特征(如 x12x2、x12x23),表明模型可处理非线性分类问题。

  2. 正则化损失函数

    • 损失函数 J(w⃗,b) 包含两部分:

      • 交叉熵损失:衡量预测概率与真实标签的差异。

      • L2 正则化项 (λ / 2m)∑wj2,惩罚大权重以防止过拟合。

    • 优化目标是最小化 J(w⃗,b) 以学习参数 wj


2. 正则化逻辑回归的梯度下降具体实现

正则化(图7).png

  1. 梯度下降框架

    • 参数更新规则与线性回归一致,均为:

      C16DCE8D-69F7-45AD-B5F4-16C33EC22DC4.png

      需同步更新所有参数(repeat 循环)。

  2. 偏导数的具体形式

    • 对权重 wj:

      17234A65-80A4-4F33-82AA-596C0D0AB0A0.png

      包含误差项和正则化项(与线性回归相同)。

    • 对偏置 b:
      仅含误差项,无正则化(与线性回归一致)。

  3. 关键提示
    图中标注 "Looks same as for linear regression!",指出尽管逻辑回归的损失函数(交叉熵)与线性回归(MSE)不同,但梯度下降的更新形式在加入正则化后完全一致。



评论