一、正则化的定义
正则化(Regularization)是机器学习中一种防止模型过拟合的技术,通过在损失函数中引入额外的约束(如L1、L2惩罚项),限制模型参数的大小,从而提高泛化能力。
通俗理解
想象你在教一个学生解题:如果只让他死记硬背题目(过拟合),遇到新题就会出错;但若要求他“用尽量简单的步骤解题”(正则化),他反而能举一反三。正则化就是给模型这种“约束”,让它学得更通用、更简洁。
目标:通过限制模型参数(w1,w2,⋯ ,wn,b)的大小,使模型更简单(simpler model),从而降低过拟合风险(less likely to overfit)。
模型示例:假设一个房价预测模型有100个特征(如卧室数量、楼层、收入等),对应参数 w1 到 w100 和偏置 b。
正则化公式:在原损失函数 J(w⃗,b) 中,增加了对参数平方和的惩罚项(L2正则化),形式为 ∑wj2+b2,并通过参数 λ 控制正则化强度。
灵活性:公式中部分项可选择性包含或排除(如是否对偏置 b 正则化)。
二、正则化的数学表达和参数λ选择
优化目标:通过最小化带正则化的损失函数 J(w,b),平衡拟合误差(第一项)和参数约束(第二项,L2正则化)。
公式分解:
第一项是均方误差(MSE),衡量模型预测与真实值的偏差。
第二项 (λ /(2m))∑wj2 惩罚大参数值,λ 控制正则化强度。
参数 λ 的作用:
若 λ=0,正则化失效,模型可能过拟合。
若 λ 极大(如 1010),参数被强制趋近于0,模型退化为简单常数(如 f(x)=b)。
关键提示:需选择适当的 λ 以平衡拟合和泛化(图中标注 "balanced both goals")。
三、正则化线性回归
1. 正则化线性回归
正则化损失函数:
公式与前一图片一致,包含均方误差(MSE)和L2正则化项((λ /(2m))∑wj2),目标是最小化 J(w⃗,b)。梯度下降更新规则:
参数更新:通过偏导数调整 wj 和 b,学习率 αα 控制步长。
正则化影响:
对 wj:更新时额外增加 (λ / m)wj 项,推动参数向0收缩。
对 b:更新规则与未正则化时相同(无正则化项)。
同步更新(simultaneous update):所有参数需在同一迭代步中更新。
2. 正则化线性回归的梯度下降具体实现
梯度下降更新规则
权重 wj 的更新:
包含两部分:
原始梯度项(误差对特征 xj 的加权平均)。
正则化项 (λ / m)wj,推动 wj 向零收缩。
偏置 b 的更新:
与普通线性回归一致,无正则化项。
参数收缩的数学解释
更新公式可重写为:
其中 (1 − α(λ/m)) 是收缩因子(如示例中的 0.9998),每次迭代会轻微缩小 wj。
同步更新
所有参数 w1,w2,…,wn 需在同一迭代步中更新(simultaneous update
)。
3. 正则化线性回归的梯度项推导过程
目标函数
损失函数包含均方误差和L2正则化项:求导步骤
第一步:对均方误差项求导,利用链式法则得到线性部分:
第二步:对正则化项求导,直接得到:
合并结果:最终偏导数为:
关键点
推导显示正则化项的引入仅需在原始梯度基础上简单叠加 (λ / m)wj。
四、正则化逻辑回归
1. 正则化逻辑回归
模型定义
逻辑回归通过线性组合 z=w1x1+w2x2+⋯+b 和 Sigmoid 函数 fw⃗,b(x⃗)=1 /(1+e−z )输出概率值。
图中示例包含多项式特征(如 x12x2、x12x23),表明模型可处理非线性分类问题。
正则化损失函数
损失函数 J(w⃗,b) 包含两部分:
交叉熵损失:衡量预测概率与真实标签的差异。
L2 正则化项 (λ / 2m)∑wj2,惩罚大权重以防止过拟合。
优化目标是最小化 J(w⃗,b) 以学习参数 wj。
2. 正则化逻辑回归的梯度下降具体实现
梯度下降框架
参数更新规则与线性回归一致,均为:
需同步更新所有参数(
repeat
循环)。
偏导数的具体形式
对权重 wj:
包含误差项和正则化项(与线性回归相同)。
对偏置 b:
仅含误差项,无正则化(与线性回归一致)。
关键提示
图中标注 "Looks same as for linear regression!",指出尽管逻辑回归的损失函数(交叉熵)与线性回归(MSE)不同,但梯度下降的更新形式在加入正则化后完全一致。