Linear Regression|线性回归

bolin
发布于 2025-06-14 / 2 阅读
0
0

Linear Regression|线性回归

一、线性回归的含义

线性回归(Linear Regression)是统计学和机器学习中最基础、最常用的预测模型之一,用于分析因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。其核心思想是通过拟合一条最佳直线(或超平面)来描述变量之间的关系,并据此进行预测。

通俗理解:

想象你在卖冰淇淋,发现一个规律:天气越热,卖出的冰淇淋越多。你想量化这个关系,比如:

  • 气温每升高1℃,大概会多卖多少支?

  • 如果明天35℃,预测能卖多少?

线性回归就是帮你找一条“最合适”的直线,来描述这种规律

例子(一)

线性回归(图1).png

  1. 数据点

    • 每个点代表一套房屋,横坐标是它的面积(X),纵坐标是它的价格(Y,单位:$1000)

    • 比如右上角的点:面积大,价格高;左下角的点:面积小,价格低。

  2. 蓝色斜线(回归模型)

    • 这是通过数据自动拟合的“趋势线”,用来总结面积和价格的关系。

    • 线的方向:向右上方延伸 → 面积越大,价格越高(正相关)。

    • 线的意义

      • 如果新房子面积是图中某个值,直接垂直向上找到线上的点,就是预测价格

  3. “Supervised Learning”

    • 因为图中每个点都有已知的真实价格(即“right answers”),模型是通过学习这些正确答案总结规律的。

  4. “Predicts numbers”

    • 这条线的核心功能:输入面积,输出一个具体的预测价格数字(比如面积=1250平方英尺 → 价格≈$220,000)。

线性回归(图2).png

例子(二)

线性回归(图3).png

  1. 训练集是什么

  • 就是用来教电脑学习的数据表格(图中左边的数字表格)

  • 比如这个表格里记录了47套房子的面积和价格(实际只显示了前4套和最后1套)

  1. 重要术语解释

  • x(输入):房子的面积(单位:平方英尺)

  • y(输出):房子的价格(单位:千美元)

  • m:总共有47条数据(因为有第47条记录)

  1. “i”符号说明

  • x⁽¹⁾=2104:表示"第一条数据的面积是2104平方英尺"

  • y⁽¹⁾=400:表示"第一条数据的价格是40万美元"

  • (x⁽ⁱ⁾,y⁽ⁱ⁾):表示"任意一条数据"

  1. 表格内容
    每一行就是一套房子的信息:
    第一列是编号,第二列是面积(x),第三列是价格(y)
    比如第4套房:852平方英尺,17.8万美元

  2. 特别注意

  • 价格单位是"千美元",所以400=40万

  • 上标的(1)、(i)只是编号,不是数学运算


二、机器学习模型训练过程

线性回归(图4).png

1. 核心流程图解

图片展示的是机器学习模型的训练过程

text

[训练数据] → [学习算法] → [预测函数f] → [预测结果ŷ]
  • 输入 (x):房屋面积(特征)

  • 输出 (ŷ):预测价格(带小帽子的y)

  • f(x):连接x和ŷ的"魔法公式"

2. 关键概念详解

(1) ŷ (y-hat) 是什么?

  • 正式定义:模型对真实价格y的预测值(estimated y)

  • 为什么加"帽子"
    就像天气预报的"预测温度"≠实际温度,ŷ是模型猜的价格,y才是真实成交价。

  • 例子
    如果模型预测100㎡房子卖¥200万(ŷ=200),实际成交¥210万(y=210),误差就是10万。

(2) 假设函数 (Hypothesis Function)

  • 数学表示
    fw,b(x)=wx+bfw,b(x)=wx+b
    或简写 f(x)=wx+bf(x)=wx+b

  • 每个部分的含义

    • w(weight):斜率,代表"每平米值多少钱"
      (如w=0.5 → 每㎡增值¥5000)

    • b(bias):截距,代表"白送的基础价格"
      (如b=50 → 即使0㎡也要收¥50万,可能是土地成本)

    • x:输入的特征值(面积)

  • 为什么叫"假设"
    因为这是模型对现实规律的猜测,需要数据验证。

(3) 线性回归的特性

  • 线性:公式画出来是一条直线
    (如果数据是曲线,就需要多项式回归)

  • 单变量:只有一个输入特征x(面积)
    (如果有多个特征如卧室数,就叫多元线性回归)

3. 学习算法的工作

目标是找到最优的w和b,让预测误差最小。具体步骤:

  1. 初始化:随机给w和b赋值(比如w=0,b=0)

  2. 计算预测值:用当前w,b计算所有房子的ŷ

  3. 计算误差:比较ŷ和真实y的差距(常用均方误差)

  4. 调整参数:通过梯度下降等算法微调w和b

  5. 重复:直到误差无法继续减小



评论