一、正则化的定义

正则化（Regularization）是机器学习中一种防止模型过拟合的技术，通过在损失函数中引入额外的约束（如L1、L2惩罚项），限制模型参数的大小，从而提高泛化能力。

通俗理解
想象你在教一个学生解题：如果只让他死记硬背题目（过拟合），遇到新题就会出错；但若要求他“用尽量简单的步骤解题”（正则化），他反而能举一反三。正则化就是给模型这种“约束”，让它学得更通用、更简洁。

正则化(图1).png

目标：通过限制模型参数（w₁,w₂,⋯ ,w_n,b）的大小，使模型更简单（simpler model），从而降低过拟合风险（less likely to overfit）。
模型示例：假设一个房价预测模型有100个特征（如卧室数量、楼层、收入等），对应参数 w₁ 到 w₁₀₀ 和偏置 b。
正则化公式：在原损失函数 J(w⃗,b) 中，增加了对参数平方和的惩罚项（L2正则化），形式为 ∑w_j²+b²，并通过参数 λ 控制正则化强度。
灵活性：公式中部分项可选择性包含或排除（如是否对偏置 b 正则化）。

二、正则化的数学表达和参数λ选择

正则化(图2).png

优化目标：通过最小化带正则化的损失函数 J(w,b)，平衡拟合误差（第一项）和参数约束（第二项，L2正则化）。
公式分解：
- 第一项是均方误差（MSE），衡量模型预测与真实值的偏差。
- 第二项（λ /（2m））∑w_j² 惩罚大参数值，λ 控制正则化强度。
参数 λ 的作用：
- 若 λ=0，正则化失效，模型可能过拟合。
- 若 λ 极大（如 10¹⁰），参数被强制趋近于0，模型退化为简单常数（如 f(x)=b）。
关键提示：需选择适当的 λ 以平衡拟合和泛化（图中标注 "balanced both goals"）。

正则化(图4).png

正则化损失函数：
公式与前一图片一致，包含均方误差（MSE）和L2正则化项（（λ /（2m））∑w_j²），目标是最小化 J(w⃗,b)。
梯度下降更新规则：
- 参数更新：通过偏导数调整 wj 和 b，学习率 αα 控制步长。
- 正则化影响：
  - 对 w_j：更新时额外增加（λ / m）w_j项，推动参数向0收缩。
  - 对 b：更新规则与未正则化时相同（无正则化项）。
- 同步更新（simultaneous update）：所有参数需在同一迭代步中更新。

正则化(图3).png

梯度下降更新规则
- 权重 w_j 的更新：
  包含两部分：
  - 原始梯度项（误差对特征 x_j的加权平均）。
  - 正则化项（λ / m）w_j，推动 w_j 向零收缩。
- 偏置 b 的更新：
  与普通线性回归一致，无正则化项。
参数收缩的数学解释
- 更新公式可重写为：
  其中 (1 − α（λ/m）) 是收缩因子（如示例中的 0.9998），每次迭代会轻微缩小 w_j。
同步更新
所有参数 w₁,w₂,…,w_n 需在同一迭代步中更新（simultaneous update）。

正则化(图5).png

目标函数
损失函数包含均方误差和L2正则化项：
求导步骤
- 第一步：对均方误差项求导，利用链式法则得到线性部分：
- 第二步：对正则化项求导，直接得到：
- 合并结果：最终偏导数为：
关键点
推导显示正则化项的引入仅需在原始梯度基础上简单叠加（λ / m）w_j。

正则化(图6).png

模型定义
- 逻辑回归通过线性组合 z=w₁x₁+w₂x₂+⋯+b 和 Sigmoid 函数 f_w⃗,b(x⃗)=1 /（1+e^−z ）输出概率值。
- 图中示例包含多项式特征（如 x₁²x₂、x₁²x₂³），表明模型可处理非线性分类问题。
正则化损失函数
- 损失函数 J(w⃗,b) 包含两部分：
  - 交叉熵损失：衡量预测概率与真实标签的差异。
  - L2 正则化项 （λ / 2m）∑w_j²，惩罚大权重以防止过拟合。
- 优化目标是最小化 J(w⃗,b) 以学习参数 w_j。

正则化(图7).png

梯度下降框架
- 参数更新规则与线性回归一致，均为：
  需同步更新所有参数（repeat 循环）。
偏导数的具体形式
- 对权重 wj：
  包含误差项和正则化项（与线性回归相同）。
- 对偏置 b：
  仅含误差项，无正则化（与线性回归一致）。
关键提示
图中标注 "Looks same as for linear regression!"，指出尽管逻辑回归的损失函数（交叉熵）与线性回归（MSE）不同，但梯度下降的更新形式在加入正则化后完全一致。