Logistic Regression|逻辑回归

bolin
发布于 2025-06-23 / 6 阅读
0
0

Logistic Regression|逻辑回归

一、逻辑回归的含义

逻辑回归(Logistic Regression)是一种用于解决分类问题的统计学习方法,尤其适用于二分类任务(如判断“是/否”)。它通过Sigmoid函数将线性回归的输出映射到[0,1]区间,表示样本属于某一类的概率。

通俗理解

可以把逻辑回归想象成一个“概率打分器”:它先像线性回归一样计算输入特征的加权和(比如“年龄+收入”),然后通过一个“S型魔法函数”(Sigmoid)把这个分数压缩成0到1之间的概率。例如,输出0.7表示“有70%的可能性是猫,30%的可能性是狗”。


二、二分类问题

逻辑回归(图1).png

  1. 任务示例:图中列举了典型的二分类场景,如判断邮件是否为垃圾邮件(spam)、交易是否欺诈、肿瘤是否恶性。

  2. 输出(y):分类结果只能是两个互斥的值,例如“是/否”(yes/no)、“真/假”(true/false),或用数值“0/1”表示(0=负类,1=正类)。

  3. 类别术语

    • 负类(Negative Class):通常表示“无”或默认状态(如“非垃圾邮件”)。

    • 正类(Positive Class):关注的目标(如“欺诈交易”)。

逻辑回归(图2).png

这幅图展示了线性分类(如逻辑回归)在判断肿瘤是否恶性的原理:

  • 横轴是肿瘤直径 x,纵轴是预测标签 y^,0 表示良性(no),1 表示恶性(yes)。

  • 蓝线和绿线表示模型输出函数 fw,b(x)=wx+b。

  • 当 fw,b(x)≥0.5 时,预测 y^=1;小于 0.5 时,预测 y^=0。

  • 图中蓝圈表示实际为良性(0),红叉为恶性(1)。

  • 蓝色竖线是“决策边界”(decision boundary),左边预测为0,右边为1。

  • 图中有些样本被错误分类(例如红叉落在蓝线左边被预测为良性),属于“misclassified”。


三、逻辑回归的Sigmoid函数与分类阈值

逻辑回归(图3).png

  1. 阈值(Threshold):图中以“肿瘤是否恶性”为例,设定阈值为 0.7(若预测概率 ≥0.7 则判定为“恶性”(yes/1))。

  2. 输入特征:肿瘤直径(x,单位 cm)作为模型的输入变量。

  3. Sigmoid 函数

    • 核心公式:将任意实数 z 映射到 (0,1) 区间。

    • 逻辑回归(图4).png

    • 示例输出:

      • z=−100 时,g(z)≈0(接近 0)。

      • z=0 时,g(z)=0.5。


四、逻辑回归模型

逻辑回归(图5).png

逻辑回归模型

  • 输入:特征向量 x⃗和参数 w⃗、偏置 b。

  • 线性部分:z=w⃗x⃗+b。

  • 最终输出:

逻辑回归(图6).png

逻辑回归输出

逻辑回归(图7).png

  1. 逻辑回归输出解释

    • 模型公式:,输出表示样本属于类别 1 的概率。

    • 示例:若 fw,b(x⃗)=0.7,表示有 70% 的概率 y=1y=1(如肿瘤为恶性)。

  2. 概率定义

    • fw,b(x⃗)=P(y=1∣x;w,b):给定输入 x 和参数 w,b,y=1 的条件概率。

    • 两类概率之和为 1:P(y=0)+P(y=1)=1。


评论