Learn Beyond Limits

Clustering|聚类

一、聚类的定义 聚类是一种常见的数据分析方法,它通过将数据集中的对象分组,使同一组内的对象相似度高,而不同组之间的对象相似度低。 通俗理解: 就像把一堆不同颜色和形状的玩具进行分类,把红色的玩具放一堆,蓝色的玩具放一堆,形状相似的也归到一起,这样就可以更清晰地了解玩具的组成情况。<

bolin bolin 发布于 2025-08-10

Decision Trees vs Neural Networks|决策树 vs 神经网络

一、决策树与神经网络的对比 这幅图片对比了决策树和神经网络两种机器学习模型的特点:

bolin bolin 发布于 2025-08-09

XGBoost Algorithm|XGBoost算法

一、XGBoost算法的定义 XGBoost(eXtreme Gradient Boosting)是一种高效的机器学习算法,基于梯度提升框架。它通过组合多个弱学习器(通常是决策树)来构建强大的预测模型,每次迭代都会针对前一次模型的残差进行学习,从而逐步提高模型的准确性。XGBoost 在处理大规模数

bolin bolin 发布于 2025-08-08

Random Forest Algorithm|随机森林算法

一、放回抽样的定义 放回抽样是一种统计学中的抽样方法,其中每次从总体中抽取一个样本后,该样本会被放回总体中,使得每次抽取都是独立的。这种方法确保了总体中的每个样本在每次抽取时都有相同的机会被选中。 这幅图

bolin bolin 发布于 2025-08-07

Tree Ensembles|树集成

一、树集成的定义 树集成是一种强大的机器学习方法,它通过组合多个决策树模型来提高预测的准确性和稳定性。 通俗理解: 就像一群智者共同商讨问题,比单个人的判断更可靠。每棵决策树都是基于数据的一个“小专家”,而树集成则整合这些“小专家”的意见,得出更准确的结论。这种方法在处理复杂数据和预测任务时表现出色

bolin bolin 发布于 2025-08-06

Regression Trees|回归树

一、回归树的定义 回归树是一种用于解决回归问题的机器学习模型,它通过将特征空间划分为不同的区域,为每个区域分配一个预测值来实现对目标变量的预测。 通俗理解: 回归树就像是根据一系列问题(特征)把数据分到不同的“篮子”里,每个“篮子”都有一个对应的预测结果,当有新的

bolin bolin 发布于 2025-08-05

Continuous valued features|连续的有价值特征

一、连续特征的数据表示 图片展示了一个关于宠物(猫和狗)的数据集,其中包含了几个特征:耳朵形状(尖耳或垂耳)、脸型(圆形或非圆形)、胡须(有或无)、体重(以磅为单位)以及一个目标变量“是否为猫”(用1表示猫,0表示狗)。

bolin bolin 发布于 2025-08-04

One-hot encoding|独热编码

一、独热编码的定义 One-hot encoding(独热编码)是一种将分类变量转换为数值形式的编码方法。它通过为每个类

bolin bolin 发布于 2025-08-03

Information Gain|信息增益

一、信息增益的定义 信息增益(Information Gain)是机器学习中,特别是在构建决策树时,用来评估某个特征对分类结果贡献大小的一个指标。它基于信息论中的熵(Entropy)概念,熵是衡量数据集纯度或不确定性的量度。信息增益通过计算数据集在某个特征上的熵的减少量来确定该特征的价值。 通俗理解

bolin bolin 发布于 2025-07-31

Entropy|熵

一、熵的定义 熵是信息论中的一个概念,用于衡量信息的不确定性或混乱程度。在机器学习中,熵常用来评估数据集的纯度,即数据集中样本属于同一类别的程度。 通俗理解: 熵越高,表示数据越混乱,分类越困难;熵越低,数据越有序,分类越容易。 二、熵与样本纯度的关系

bolin bolin 发布于 2025-07-30