Regularization and bias / variance｜正则化和偏差/方差

bolin

发布于 2025-07-15 / 4 阅读

0

Regularization and bias / variance｜正则化和偏差/方差

#Machine Learning #Deep Learning

一、正则化强度（λ）对模型偏差与方差的影响

这幅图通过一个多项式回归模型的例子，展示了正则化参数 λ 的不同取值如何影响模型的拟合行为、训练误差和偏差-方差权衡。以下是逐部分详细解析：

1. 模型与损失函数

模型形式：
f_w,b(x)=w₁x+w₂x²+w₃x³+w₄x⁴+b
这是一个4次多项式回归模型，复杂度较高，容易过拟合。
损失函数：
包含两部分：
- 均方误差（MSE）：衡量模型预测与真实值的差距。
- L2正则化项（权重衰减）：惩罚大权重，由 λ 控制强度。

2. 不同 λ 下的模型行为

(1) 大 λ（λ=10,000）→ 高偏差（欠拟合）

现象：
- 正则化项主导损失函数，迫使所有权重 w_j≈0，模型简化为 f_w,b(x)≈b（水平直线）。
- 训练误差 J_train 较大，无法捕捉数据趋势。
- 图像中拟合线为一条平坦直线，与数据点偏差显著。
原因：
λ 过大时，模型过度抑制权重，失去拟合非线性关系的能力，导致欠拟合。

(2) 中等 λ → 最佳平衡

现象：
- 训练误差 J_train 和交叉验证误差 J_cv 均较小。
- 图像中拟合曲线平滑且贴近数据趋势，既不过于简单也不复杂。
原因：
λ 适中时，正则化有效约束了模型复杂度，防止过拟合的同时保留了足够的灵活性，达到偏差-方差均衡。

(3) 小 λ（λ=0）→ 高方差（过拟合）

现象：
- 无正则化约束，模型全力最小化训练误差，可能拟合噪声，导致 J_train 极低但 J_cv 很高。
- 图像中拟合曲线剧烈波动，穿过所有训练数据点，泛化能力差。
原因：
λ=0 时，模型自由调整权重，对训练数据“死记硬背”，表现为过拟合。

3. 图像中的关键细节

数据分布：
散点图表示房屋价格（price）与大小（size）的关系，非线性且可能含噪声。
拟合曲线对比：
- 大 λ：水平线（欠拟合）。
- 中等 λ：平滑曲线（理想拟合）。
- 小 λ：曲折曲线（过拟合）。

4. 核心结论

λ 的作用：控制模型复杂度，调节偏差与方差的权衡。
调参目标：通过交叉验证选择 λ，使 J_cv 最小化，避免欠拟合或过拟合。

二、正则化参数 λ 的选择与模型评估流程

这幅图展示了如何通过系统尝试不同的正则化参数 λ 来选择最优模型，并评估其性能。以下是分步解析：

1. 模型与正则化参数尝试

模型形式：
f_w,b(x)=w₁x+w₂x²+w₃x³+w₄x⁴+b
这是一个4次多项式回归模型，容易过拟合，需通过正则化控制复杂度。
尝试的 λ 值：
从 λ=0（无正则化）开始，逐步增大（0.01, 0.02, 0.04, 0.08, ..., 10），覆盖从低到高的正则化强度。

2. 模型训练与交叉验证

步骤：
1. 对每个 λ，最小化损失函数 J(W,b)，得到对应的参数 W<i>,b<i>。
2. 计算每个模型的交叉验证误差 J_cv，用于评估泛化性能。
关键过程：
最终比较不同 λ 对应的 J_cv，选择最优模型（图中示例选择 W<5>,b<5>，对应 λ≈10）。

3. 测试误差报告

最终步骤：
使用选定的最优参数 W<5>,b<5> 计算测试误差 J_test，反映模型在未知数据上的表现。

4. 核心结论

λ 的选择逻辑：
通过网格搜索（或类似方法）尝试不同 λ，根据交叉验证误差选择平衡偏差与方差的模型。
流程目的：
避免手动猜测 λ，以数据驱动方式确定最优正则化强度。

三、正则化参数 λ 对偏差和方差的影响分析

这幅图展示了正则化参数 λ 如何影响模型的偏差（Bias）和方差（Variance），以及对应的训练误差和交叉验证误差的变化趋势。以下是分步解析：

1. 核心公式

损失函数：
包含均方误差（MSE）和L2正则化项，λ 控制正则化强度。

2. 关键曲线与概念

偏差（Bias）随 λ 的变化：
- 大 λ：模型过于简单（如 λ→∞ 时权重趋近于0），导致高偏差（欠拟合）。
- 小 λ：模型复杂度高，偏差降低，但可能过拟合。
方差（Variance）随 λ 的变化：
- 大 λ：模型简单，方差低（对数据变化不敏感）。
- 小 λ：模型复杂，方差高（对训练数据噪声敏感）。
误差曲线的趋势：
- 训练误差（train）：随 λ 减小而单调下降（模型更拟合训练数据）。
- 交叉验证误差（cv）：存在最小值，对应最优 λ（平衡偏差与方差）。

3. 图像标注解析

横轴（range λ）：正则化参数 λ 从大到小（左侧高正则化，右侧低正则化）。
纵轴：偏差、方差及误差值。
关键区域：
- 左侧（large λ）：高偏差主导，训练误差和交叉验证误差均高。
- 右侧（small λ）：高方差主导，训练误差低但交叉验证误差高。
- 中间：最优 λ，交叉验证误差最小。

4. 核心结论

λ 的调节目标：通过选择中间范围的 λ，最小化交叉验证误差，实现偏差-方差的平衡。
多项式次数（degree of polynomial）：隐含提示模型复杂度需与 λ 协同调整（图中未展开）。

评论