一、正则化强度(λ)对模型偏差与方差的影响
这幅图通过一个多项式回归模型的例子,展示了正则化参数 λ 的不同取值如何影响模型的拟合行为、训练误差和偏差-方差权衡。以下是逐部分详细解析:
1. 模型与损失函数
模型形式:
fw,b(x)=w1x+w2x2+w3x3+w4x4+b
这是一个4次多项式回归模型,复杂度较高,容易过拟合。损失函数:
包含两部分:
均方误差(MSE):衡量模型预测与真实值的差距。
L2正则化项(权重衰减):惩罚大权重,由 λ 控制强度。
2. 不同 λ 下的模型行为
(1) 大 λ(λ=10,000)→ 高偏差(欠拟合)
现象:
正则化项主导损失函数,迫使所有权重 wj≈0,模型简化为 fw,b(x)≈b(水平直线)。
训练误差 Jtrain 较大,无法捕捉数据趋势。
图像中拟合线为一条平坦直线,与数据点偏差显著。
原因:
λ 过大时,模型过度抑制权重,失去拟合非线性关系的能力,导致欠拟合。
(2) 中等 λ → 最佳平衡
现象:
训练误差 Jtrain 和交叉验证误差 Jcv 均较小。
图像中拟合曲线平滑且贴近数据趋势,既不过于简单也不复杂。
原因:
λ 适中时,正则化有效约束了模型复杂度,防止过拟合的同时保留了足够的灵活性,达到偏差-方差均衡。
(3) 小 λ(λ=0)→ 高方差(过拟合)
现象:
无正则化约束,模型全力最小化训练误差,可能拟合噪声,导致 Jtrain 极低但 Jcv 很高。
图像中拟合曲线剧烈波动,穿过所有训练数据点,泛化能力差。
原因:
λ=0 时,模型自由调整权重,对训练数据“死记硬背”,表现为过拟合。
3. 图像中的关键细节
数据分布:
散点图表示房屋价格(price)与大小(size)的关系,非线性且可能含噪声。拟合曲线对比:
大 λ:水平线(欠拟合)。
中等 λ:平滑曲线(理想拟合)。
小 λ:曲折曲线(过拟合)。
4. 核心结论
λ 的作用:控制模型复杂度,调节偏差与方差的权衡。
调参目标:通过交叉验证选择 λ,使 Jcv 最小化,避免欠拟合或过拟合。
二、正则化参数 λ 的选择与模型评估流程
这幅图展示了如何通过系统尝试不同的正则化参数 λ 来选择最优模型,并评估其性能。以下是分步解析:
1. 模型与正则化参数尝试
模型形式:
fw,b(x)=w1x+w2x2+w3x3+w4x4+b
这是一个4次多项式回归模型,容易过拟合,需通过正则化控制复杂度。尝试的 λ 值:
从 λ=0(无正则化)开始,逐步增大(0.01, 0.02, 0.04, 0.08, ..., 10),覆盖从低到高的正则化强度。
2. 模型训练与交叉验证
步骤:
对每个 λ,最小化损失函数 J(W,b),得到对应的参数 W<i>,b<i>。
计算每个模型的交叉验证误差 Jcv,用于评估泛化性能。
关键过程:
最终比较不同 λ 对应的 Jcv,选择最优模型(图中示例选择 W<5>,b<5>,对应 λ≈10)。
3. 测试误差报告
最终步骤:
使用选定的最优参数 W<5>,b<5> 计算测试误差 Jtest,反映模型在未知数据上的表现。
4. 核心结论
λ 的选择逻辑:
通过网格搜索(或类似方法)尝试不同 λ,根据交叉验证误差选择平衡偏差与方差的模型。流程目的:
避免手动猜测 λ,以数据驱动方式确定最优正则化强度。
三、正则化参数 λ 对偏差和方差的影响分析
这幅图展示了正则化参数 λ 如何影响模型的偏差(Bias)和方差(Variance),以及对应的训练误差和交叉验证误差的变化趋势。以下是分步解析:
1. 核心公式
损失函数:
包含均方误差(MSE)和L2正则化项,λ 控制正则化强度。
2. 关键曲线与概念
偏差(Bias)随 λ 的变化:
大 λ:模型过于简单(如 λ→∞ 时权重趋近于0),导致高偏差(欠拟合)。
小 λ:模型复杂度高,偏差降低,但可能过拟合。
方差(Variance)随 λ 的变化:
大 λ:模型简单,方差低(对数据变化不敏感)。
小 λ:模型复杂,方差高(对训练数据噪声敏感)。
误差曲线的趋势:
训练误差(train):随 λ 减小而单调下降(模型更拟合训练数据)。
交叉验证误差(cv):存在最小值,对应最优 λ(平衡偏差与方差)。
3. 图像标注解析
横轴(range λ):正则化参数 λ 从大到小(左侧高正则化,右侧低正则化)。
纵轴:偏差、方差及误差值。
关键区域:
左侧(large λ):高偏差主导,训练误差和交叉验证误差均高。
右侧(small λ):高方差主导,训练误差低但交叉验证误差高。
中间:最优 λ,交叉验证误差最小。
4. 核心结论
λ 的调节目标:通过选择中间范围的 λ,最小化交叉验证误差,实现偏差-方差的平衡。
多项式次数(degree of polynomial):隐含提示模型复杂度需与 λ 协同调整(图中未展开)。