Multiple Linear Regression|多元线性回归

bolin
发布于 2025-06-18 / 10 阅读
0
0

Multiple Linear Regression|多元线性回归

一、多元线性回归的含义

多元线性回归是一种统计方法,用于分析多个自变量(X)一个因变量(Y)之间的线性关系。

通俗理解
就像用多个“遥控器”(比如广告费、季节、产品价格)同时调节“电视音量”(比如销量),多元线性回归帮你算出每个遥控器对音量的影响有多大,并预测如果一起调整它们,音量会变成多少。

多元线性回归(图1).png

这幅图展示了一个多元线性回归的数据示例,具体内容如下:

  1. 表格部分

    • 前四列是自变量(特征):房屋面积(平方英尺)、卧室数量、楼层数、房龄。

    • 最后一列是因变量:房屋价格(单位:千美元)。

    • 每行代表一个样本(共4条数据),例如第一行:2104平方英尺、5间卧室、1层、45年房龄,对应价格460千美元。

  2. 符号说明

    • xj:第j个特征(如x1是面积,x2是卧室数)。

    • n=4:特征总数(4个自变量)。

    • x(i):第i个样本的所有特征值(向量形式),例如x(2)=[1416,3,2,40]。(这里是行向量)

    • xj(i):第i个样本的第j个特征值,例如x3(2)=2(第2个样本的楼层数)。

二、多元线性回归模型公式

多元线性回归(图2).png

  1. 模型公式

    • 单变量线性回归的旧公式:fw,b(x)=wx+b(仅一个特征x)。

    • 扩展为多元线性回归的新公式:

      fw,b(X)=w1X1+w2X2+w3X3+w4X4+b

      其中:

      • X1到X4:输入特征(如面积、卧室数等)。

      • w1到w4:每个特征的权重(系数)。

      • b:偏置项(截距)。

  2. 具体示例

  • 图中给出一个假设的权重值示例

    fw,b(X)=0.1X1+4kX2+10X3+(−2)X4+80

    对应特征:面积(X1)、卧室数(X2)、楼层数(X3)、房龄(X4)。

  • 说明:

    • 权重w1=0.1表示面积每增加1平方英尺,价格增加0.1千美元。

    • 权重w4=−2表示房龄每增加1年,价格减少2千美元。

    • b=80是基础价格(所有特征为0时的理论值)。

  1. 通用形式
    最下方公式为通用表达式:

fw,b(x)=w1x1+w2x2+⋯+wnxn+b

适用于任意数量(nn个)的特征。

三、多元线性回归的向量化表示与参数解析

多元线性回归(图3).png

  1. 向量化模型公式

    • 多元线性回归的向量化表示:

      fw⃗,b(x⃗)=w1x1+w2x2+⋯+wnxn+b

      也可以表示为向量点积形式:

      fw⃗,b(x⃗)=w⃗⋅x⃗+b

      其中:

      • w⃗=[w1,w2,⋯ ,wn] 是权重向量(模型参数)

      • x⃗=[x1,x2,⋯ ,xn]是特征向量

      • b 是标量偏置项

  2. 关键说明

  • 公式明确区分了:

    • 权重向量 w⃗(模型参数)

    • 特征向量 x⃗(输入数据)

    • 标量偏置 b

  • 点积表示 w⃗⋅x⃗ 是权重和特征的线性组合

四、多元线性回归和线性回归区别

对比维度

线性回归 (Simple Linear Regression)

多元线性回归 (Multiple Linear Regression)

自变量数量

仅1个特征(X)

多个特征(X1,X2,…,Xn

模型方程

f(x)=wx+b

f(x⃗)=w1x1+w2x2+⋯+b

参数意义

w:斜率,b:截距

w1,w2,…:各特征权重,b:全局截距

应用场景

单一因素对结果的影响(如温度对销量)

多因素共同影响(如面积、卧室数、房龄对房价)

几何解释

二维空间中的一条直线

高维空间中的超平面

计算复杂度

低(直接公式求解)

高(需矩阵运算或迭代优化)


线性回归是单变量的直线拟合,多元线性回归是多变量的超平面拟合,能更真实地反映复杂现实问题中多因素的共同作用。

五、多元线性回归梯度下降法

1. 多元线性回归梯度下降法简介

多元线性回归(图4).png

  1. 参数与模型

    • 参数:权重 w1,⋯ ,wn 和偏置 b。

    • 模型:线性函数 fw,b(x⃗)=w1x1+⋯+wnxn+b,也可表示为向量点积形式 w⃗⋅x⃗+b

  2. 代价函数

    • 表示为 J(w⃗,b),用于衡量模型预测值与真实值的误差。

  3. 梯度下降法

    • 通过迭代更新参数来最小化代价函数:

    多元线性回归(图5).png

    • 重复执行直到收敛。

2. 梯度下降法在单特征(一元线性回归)和多特征(多元线性回归)中的具体实现步骤

多元线性回归(图7).png

单特征(One Feature)

  1. 参数更新公式

    • 权重 w 的更新

      多元线性回归(图8).png

      其中:

      • α 是学习率。

      • fw,b(x(i))=wx(i)+b 是模型预测值。

      • 求和部分是代价函数 J(w,b)w 的偏导数(梯度)。

    • 偏置 b 的更新

      多元线性回归(图9).png

      这是代价函数对 b 的偏导数。

  2. 同步更新(Simultaneous Update)
    所有参数(wb)需在同一轮迭代中更新,避免使用已更新的值计算其他参数。


多特征(n≥2 Features)

  1. 参数更新公式
    对每个权重 wjj=1n)和偏置 b

    • 权重 wj 的更新

      多元线性回归(图10).png

      其中 xj(i) 是第 i 个样本的第 j 个特征值。

    • 偏置 b 的更新(与单特征相同):

      多元线性回归(图11).png

  2. 同步更新规则
    所有 wjb 需在同一轮迭代中更新,确保梯度下降的正确性。

六、正则方程

多元线性回归(图6).png

正规方程(Normal Equation)

  1. 功能

    • 直接通过解析法(闭式解)计算最优参数 w⃗b,无需迭代。

    • 仅适用于线性回归模型(不适用于其他机器学习算法如逻辑回归、神经网络等)

  2. 数学形式

    • 通过求解以下方程得到参数:

      θ=(XTX)−1XTy⃗

      其中:

      • θ 是包含 w⃗b 的参数向量。

      • X 是设计矩阵(每行一个样本,添加偏置列全为1)。

      • y⃗ 是目标值向量。


缺点

  1. 局限性

    • 仅适用于线性回归,无法扩展至其他需要迭代优化的模型(如正则化模型、非线性模型)。

  2. 计算效率问题

    • 当特征数量 n 很大(如 n>10,000)时,计算 (XTX)−1 的复杂度高达 O(n3),内存和速度会成为瓶颈。


关键结论

  1. 适用场景

    • 正规方程可能在机器学习库的线性回归实现中使用,适合小规模数据集(特征少)。

  2. 推荐方法

    • 梯度下降是更通用的方法,尤其适用于:

      • 大规模数据集(特征多或样本多)。

      • 需要扩展到其他算法(如逻辑回归、深度学习)。


对比总结

特性

正规方程

梯度下降

是否需要迭代

否,直接求解

是,需多次迭代更新参数

适用范围

仅线性回归

所有可微模型(通用性强)

计算复杂度

O(n3)O(n3)(特征多时慢)

O(mn)O(mn)(适合大规模数据)

内存需求

需存储 XTXXTX(可能巨大)

逐样本计算(内存友好)

尽管正规方程在某些场景下有效,梯度下降仍是更推荐的参数优化方法,因其通用性和可扩展性。


评论