监督学习｜Supervised Learning

一、监督学习的定义 | The definition of supervised learning

左边是输入 X，右边是对应的输出标签 Y。
箭头表示模型从输入 X 学习如何预测输出 Y。
最下方一句话：“Learns from being given right answers”（从“正确答案”中学习），说明了监督学习的本质：模型在训练阶段会被告知输入对应的正确输出（标签），它通过大量这样的“输入-输出”对来学习预测规则。

换句话说：

监督学习是一种“有老师教”的学习方式，模型知道答案并试图学习如何从输入推出这个答案。

第一个例子：

Email → Spam? (0/1)

输入：一封邮件的内容。
输出：判断是否为垃圾邮件（标签为0或1）。
应用：垃圾邮件过滤器。
监督学习点：训练阶段提供大量已标记为“垃圾”或“非垃圾”的邮件，模型从中学习分类规则。

Audio → Text transcripts

输入：语音音频。
输出：该音频的文字内容（转录）。
应用：语音识别系统。
监督学习点：每段语音都配有正确的文字转录，用于训练模型将声音映射为文本。

English → Spanish

输入：英文句子。
输出：对应的西班牙语翻译。
应用：机器翻译。
监督学习点：模型从大量英文和西班牙语对照句子中学习语言转换的规律。

Ad, user info → Click? (0/1)

输入：广告内容和用户特征（年龄、性别、兴趣等）。
输出：用户是否点击该广告（点击=1，不点击=0）。
应用：个性化广告推荐。
监督学习点：训练时提供广告展示记录和用户行为数据，模型学习预测点击概率。

Image, radar info → Position of other cars

输入：车载摄像头图像和雷达信息。
输出：周围其他车辆的位置。
应用：自动驾驶感知模块。
监督学习点：训练数据中有图像与精确的车辆位置标签，模型学习如何从图像中提取出目标位置。

在这例子中，首先会用输入的X和正确答案（即标签Y）来训练模型，在模型从这些输入、输出或X和Y从中学习之后，它们可以采用一个全新的输入x（这是之前没有见过的东西），并尝试产生适当的相应输出y。

第二个例子：

这张图的标题是 “Regression: Housing price prediction”，意思是“回归函数：房价预测”。它展示的是用监督学习来预测房价的过程。

输入与输出的含义

横轴（X轴）：房子的面积（以平方英尺为单位）
- 例如图中标出的一个输入是 750 平方英尺。
纵轴（Y轴）：房子的价格（单位是千美元 $1000's）
- 也就是说，200 在这里表示的是 $200,000 美元。

这就是一个标准的监督学习输入-输出对：

输入 X：房屋面积，输出 Y：房屋价格。

图中数据点与模型

红色叉叉表示真实的数据点，也就是训练数据集中给定的房屋面积和对应价格的真实记录。
蓝色曲线是模型学习出来的“预测函数”——它尝试拟合这些数据点，以便对未来的房屋进行价格预测。
两个不同的蓝色曲线表示两种不同的拟合方式，可能对应不同模型（比如一个是线性回归，一个是多项式回归）。

模型预测的过程

看中间的那条垂直橙线：

它表示我们有一个新的输入：一栋房子的面积是 750 平方英尺。
模型会沿着它学到的那条蓝色曲线，预测这栋房子的价格。
如果我们用浅蓝那条线来预测，得到的是大概 $150K；用深蓝那条线，预测的是 $200K。

这图体现了监督学习

这张图完整展现了监督学习的三要素：

输入（X）：房子的面积
标签（Y）：房子的真实价格（已知的“正确答案”）
模型学习目标：找到一个函数，能从输入 X 预测输出 Y，并尽量逼近真实数据（红叉）

整个过程就是典型的监督学习——

模型通过学习已有的“输入+标签”对（即房子面积+价格），建立预测关系，并用于新样本的预测。

本图是监督学习中“回归任务”的典型例子；
监督学习不只是用于分类（如垃圾邮件识别），也可以用于预测连续值（如房价）；
回归任务的目标是拟合一条曲线，使得它尽量贴近数据点；
模型训练的过程，就是在“输入已知、输出已知”的条件下学习预测规律。

第三个例子：

二分类（Binary Classification）——良性 vs 恶性肿瘤

图像解释：

横轴表示肿瘤大小（直径，单位是厘米），这是模型的输入 xx。
纵轴的 0 和 1 分别代表：
- 0：良性（benign），用蓝圈表示；
- 1：恶性（malignant），用红叉表示。
图右侧的小表格中列出了部分训练样本：肿瘤尺寸 → 正确诊断标签。

监督学习的体现：

每一个数据点（蓝圈或红叉）都表示一组：肿瘤大小 + 正确诊断（标签）；
模型的任务是学习从“肿瘤大小”预测“是良性还是恶性”；
这是一个分类问题（classification），因为输出是类别标签（0或1），不是连续值。

多分类（Multi-class Classification）——进一步区分癌症类型

这一张图是第一张图的进阶版本。

图像解释：

横轴仍然是肿瘤的大小；
但输出标签不仅仅是 0/1，而是：
- ○ 蓝圈：良性（benign）；
- × 红叉：恶性类型1；
- △ 橙三角：恶性类型2。

关键点：

模型不再只是判断“有没有癌症”，还要区分癌症的具体类型；
这就是多分类任务（multi-class classification）；
输出标签不再是两种，而是三种（甚至可以更多），比如用数字标签 y∈{0,1,2}y∈{0,1,2}。

在监督学习中，分类（classification）任务是一种常见形式，目标是根据输入特征预测其所属类别。以上图为例，模型根据肿瘤的直径预测患者是否患有乳腺癌，或更进一步区分癌症的具体类型。训练时提供肿瘤尺寸和对应诊断标签，模型从中学习分类规律。不同于回归任务预测的是连续值，分类任务的输出是有限的、离散的类别。

第四个例子：

这张图的标题是 “Two or more inputs”，意为：监督学习中的输入可以是多个变量，而不是只有一个。

图中信息结构：

横轴（X轴）：肿瘤大小（Tumor size）；
纵轴（Y轴）：年龄（Age）；
每一个点表示一位病人的数据记录，包含：
- 肿瘤的大小
- 病人的年龄
- 对应的诊断标签（良性或恶性）

分类标签说明：

蓝色圈圈 ○：benign（良性）
红色叉叉 ×：malignant（恶性）

图中最关键的部分：决策边界（decision boundary）

图中那条 弯曲的紫色线 是模型学习出的“决策边界”；
它把图划分成两个区域：
- 左下区域 → 模型预测为良性；
- 右上区域 → 模型预测为恶性；
紫线是模型根据已有标签学出来的，目标是尽量把红叉和蓝圈分开。

监督学习的关键体现：

这张图展示了监督学习的完整过程，只不过输入变量从一个变成了两个。

元素	对应内容
输入 X	一个病人对应的【年龄 + 肿瘤大小】
输出 Y	该病人是否患有恶性肿瘤（标签）
学习目标	让模型学会根据年龄和肿瘤大小判断良恶性

这类任务依然属于分类问题（classification），但强调了：

监督学习模型可以处理多个输入特征，并在特征空间中划分出复杂的分类边界。

监督学习不仅限于一维输入，也可以处理多输入特征的情况。例如图中展示了乳腺癌检测任务，模型根据病人的“年龄”和“肿瘤大小”来判断肿瘤是否为恶性。图中的紫色曲线表示模型学习出的分类边界，目的是将良性与恶性数据在二维空间中分隔开。这正体现了监督学习的核心思想：从带标签的多维数据中学习规律，进而对未知数据做出准确判断。

二、总结 | Summary

监督学习是一种通过“输入-输出对”进行训练的机器学习方法，模型在已知答案的基础上学习规律，从而对未来的数据进行准确预测。在监督学习中，每一条训练数据都包括一个输入（如一封邮件、一段语音、房屋面积、肿瘤大小等）和一个对应的输出标签（如是否垃圾邮件、转录文本、房价、是否患癌）。模型通过大量这样的训练样本学会从输入预测输出的映射关系。

监督学习任务可分为回归和分类。当输出是连续数值（如房价、温度）时，称为回归任务；当输出是有限类别（如良性/恶性、猫/狗）时，称为分类任务。分类又可以是二分类（如是否患癌）或多分类（如癌症类型）。输入特征不仅可以是单一变量，也可以是多个变量的组合（如肿瘤大小和年龄联合判断），模型会在特征空间中学习划分不同类别的边界。总之，监督学习通过给模型提供“正确答案”，教它如何做出决策，是现实中应用最广泛的一类机器学习方法。

菜单

分享

监督学习｜Supervised Learning

一、监督学习的定义 | The definition of supervised learning

第一个例子：

Email → Spam? (0/1)

Audio → Text transcripts

English → Spanish

Ad, user info → Click? (0/1)

Image, radar info → Position of other cars

第二个例子：

输入与输出的含义

图中数据点与模型

模型预测的过程

这图体现了监督学习

第三个例子：

二分类（Binary Classification）——良性 vs 恶性肿瘤

图像解释：

监督学习的体现：

多分类（Multi-class Classification）——进一步区分癌症类型

图像解释：

关键点：

第四个例子：

图中信息结构：

分类标签说明：

图中最关键的部分：决策边界（decision boundary）

监督学习的关键体现：

二、总结 | Summary

评论