Anomaly Detection vs Supervised Learning|异常检测vs监督学习

bolin
发布于 2025-08-20 / 4 阅读
0
0

Anomaly Detection vs Supervised Learning|异常检测vs监督学习

一、异常检测与监督学习的核心区别

4514B3F2-643B-4D22-9C95-2B0155BE6257.png

这幅图把异常检测(Anomaly detection)和监督学习(Supervised learning)放在一起进行对比。左边的异常检测强调,在现实中正样本(y=1)非常稀少,可能只有 0–20 个,而负样本(y=0)却很多。由于异常的类型多样、难以预测,未来出现的异常往往与现有的正样本完全不同,因此算法更多依赖于对正常数据分布 p(x) 的建模,来发现那些“偏离”的情况。典型例子是欺诈检测(Fraud)

右边的监督学习则不同,它依赖大量的正负样本。在这种情况下,即使只有 20 个正样本,也足够让算法形成对正类特征的认识。未来的新样本往往和训练集中已有的正样本相似,因此模型可以通过学习标注数据来有效分类。常见的应用是垃圾邮件检测(Spam)

整体来看,这张图传达的核心是:

  • 异常检测适合应对未知,因为未来异常可能和以往完全不同。

  • 监督学习适合处理已知,因为未来样本往往与已有样本保持一致。


二、典型应用场景对比

34752C99-8F11-412E-B3AA-B7714CF4C11E.png

这幅图通过并列方式展示了异常检测和监督学习在应用上的差异。

  • 异常检测(Anomaly Detection)

    • Fraud detection:用于识别罕见且未知的欺诈行为。

    • Manufacturing:强调“finding new, previously unseen defects”,即发现制造过程中从未出现过的新缺陷,例如飞机发动机中的异常。

    • Monitoring machines in a data center:用于实时监控数据中心机器状态,及时发现异常迹象。

  • 监督学习(Supervised Learning)

    • Email spam classification:通过已知的标注数据来分类垃圾邮件。

    • Manufacturing:处理“finding known, previously seen defects”,如已知的刮痕 (scratches),并标注为 y=1y=1。

    • Weather prediction:预测晴天、雨天等天气类别。

    • Diseases classification:利用已有病例数据进行疾病分类。

整体而言,异常检测偏向发现未知的新问题,而监督学习依赖已知的标注数据来处理熟悉的问题


三、补充内容

  • 样本分布

    • 异常检测中,正样本(异常)极其稀少,可能只有零星几个,而负样本(正常)占绝大多数。算法往往通过学习正常数据的分布 p(x)p(x),来识别那些偏离分布的点。

    • 监督学习则依赖大量的正负样本,数据均衡性较好,模型通过已知标签来学习分类边界。

  • 未来样本的相似性假设

    • 在异常检测中,未来的异常可能和已有的完全不同,因此很难通过少量的正样本来“总结规律”。这类方法强调对未知的探索

    • 在监督学习中,假设未来的样本与训练集中已知的样本相似,因此模型能够较好地泛化。这类方法强调对已知的归纳

  • 应用场景

    • 异常检测常见于 欺诈检测设备状态监控新型缺陷发现 等环境,这些问题的共同点是“异常少见且不可预期”。

    • 监督学习则适合 垃圾邮件分类天气预测疾病诊断 等任务,因其依赖大量历史数据,未来情况也大体可预测。

  • 算法思路

    • 异常检测更像是回答:“这个点是否与大多数不同?”

    • 监督学习更像是回答:“这个点属于哪一类?”



评论