Regularization and bias / variance|正则化和偏差/方差

bolin
发布于 2025-07-15 / 1 阅读
0
0

Regularization and bias / variance|正则化和偏差/方差

一、正则化强度(λ)对模型偏差与方差的影响

BD146DD1-4738-4A7C-8831-0CC2AC90DCA3.png

这幅图通过一个多项式回归模型的例子,展示了正则化参数 λ 的不同取值如何影响模型的拟合行为、训练误差和偏差-方差权衡。以下是逐部分详细解析:


1. 模型与损失函数

  • 模型形式
    fw,b(x)=w1x+w2x2+w3x3+w4x4+b
    这是一个4次多项式回归模型,复杂度较高,容易过拟合。

  • 损失函数

    AA794367-1E42-4552-BDC2-662E402CAC7F.png

    包含两部分:

    • 均方误差(MSE):衡量模型预测与真实值的差距。

    • L2正则化项(权重衰减):惩罚大权重,由 λ 控制强度。


2. 不同 λ 下的模型行为

(1) 大 λ(λ=10,000)→ 高偏差(欠拟合)

  • 现象

    • 正则化项主导损失函数,迫使所有权重 wj≈0,模型简化为 fw,b(x)≈b(水平直线)。

    • 训练误差 Jtrain 较大,无法捕捉数据趋势。

    • 图像中拟合线为一条平坦直线,与数据点偏差显著。

  • 原因
    λ 过大时,模型过度抑制权重,失去拟合非线性关系的能力,导致欠拟合

(2) 中等 λ → 最佳平衡

  • 现象

    • 训练误差 Jtrain 和交叉验证误差 Jcv 均较小。

    • 图像中拟合曲线平滑且贴近数据趋势,既不过于简单也不复杂。

  • 原因
    λ 适中时,正则化有效约束了模型复杂度,防止过拟合的同时保留了足够的灵活性,达到偏差-方差均衡

(3) 小 λ(λ=0)→ 高方差(过拟合)

  • 现象

    • 无正则化约束,模型全力最小化训练误差,可能拟合噪声,导致 Jtrain 极低但 Jcv 很高。

    • 图像中拟合曲线剧烈波动,穿过所有训练数据点,泛化能力差。

  • 原因
    λ=0 时,模型自由调整权重,对训练数据“死记硬背”,表现为过拟合


3. 图像中的关键细节

  • 数据分布
    散点图表示房屋价格(price)与大小(size)的关系,非线性且可能含噪声。

  • 拟合曲线对比

    • 大 λ:水平线(欠拟合)。

    • 中等 λ:平滑曲线(理想拟合)。

    • 小 λ:曲折曲线(过拟合)。


4. 核心结论

  • λ 的作用:控制模型复杂度,调节偏差与方差的权衡。

  • 调参目标:通过交叉验证选择 λ,使 Jcv 最小化,避免欠拟合或过拟合。


二、正则化参数 λ 的选择与模型评估流程

03537D4F-F388-4917-A546-92AC2B9CE1B4.png

这幅图展示了如何通过系统尝试不同的正则化参数 λ 来选择最优模型,并评估其性能。以下是分步解析:


1. 模型与正则化参数尝试

  • 模型形式
    fw,b(x)=w1x+w2x2+w3x3+w4x4+b
    这是一个4次多项式回归模型,容易过拟合,需通过正则化控制复杂度。

  • 尝试的 λ 值
    从 λ=0(无正则化)开始,逐步增大(0.01, 0.02, 0.04, 0.08, ..., 10),覆盖从低到高的正则化强度。


2. 模型训练与交叉验证

  • 步骤

    1. 对每个 λ,最小化损失函数 J(W,b),得到对应的参数 W<i>,b<i>

    2. 计算每个模型的交叉验证误差 Jcv,用于评估泛化性能。

  • 关键过程

    CDA74ED1-E63B-434B-BB1E-ACF492C9BBFD.png

    最终比较不同 λ 对应的 Jcv,选择最优模型(图中示例选择 W<5>,b<5>,对应 λ≈10)。


3. 测试误差报告

  • 最终步骤
    使用选定的最优参数 W<5>,b<5> 计算测试误差 Jtest,反映模型在未知数据上的表现。


4. 核心结论

  • λ 的选择逻辑
    通过网格搜索(或类似方法)尝试不同 λ,根据交叉验证误差选择平衡偏差与方差的模型。

  • 流程目的
    避免手动猜测 λ,以数据驱动方式确定最优正则化强度。


三、正则化参数 λ 对偏差和方差的影响分析

D695082B-9BCA-4A82-8409-CEA8B44BC4F9.png

这幅图展示了正则化参数 λ 如何影响模型的偏差(Bias)和方差(Variance),以及对应的训练误差和交叉验证误差的变化趋势。以下是分步解析:


1. 核心公式

  • 损失函数

    AA794367-1E42-4552-BDC2-662E402CAC7F.png

    包含均方误差(MSE)L2正则化项,λ 控制正则化强度。


2. 关键曲线与概念

  1. 偏差(Bias)随 λ 的变化

    • 大 λ:模型过于简单(如 λ→∞ 时权重趋近于0),导致高偏差(欠拟合)

    • 小 λ:模型复杂度高,偏差降低,但可能过拟合。

  2. 方差(Variance)随 λ 的变化

    • 大 λ:模型简单,方差低(对数据变化不敏感)。

    • 小 λ:模型复杂,方差高(对训练数据噪声敏感)。

  3. 误差曲线的趋势

    • 训练误差(train):随 λ 减小而单调下降(模型更拟合训练数据)。

    • 交叉验证误差(cv):存在最小值,对应最优 λ(平衡偏差与方差)。


3. 图像标注解析

  • 横轴(range λ):正则化参数 λ 从大到小(左侧高正则化,右侧低正则化)。

  • 纵轴:偏差、方差及误差值。

  • 关键区域

    • 左侧(large λ):高偏差主导,训练误差和交叉验证误差均高。

    • 右侧(small λ):高方差主导,训练误差低但交叉验证误差高。

    • 中间:最优 λ,交叉验证误差最小。


4. 核心结论

  • λ 的调节目标:通过选择中间范围的 λ,最小化交叉验证误差,实现偏差-方差的平衡。

  • 多项式次数(degree of polynomial):隐含提示模型复杂度需与 λ 协同调整(图中未展开)。



评论