Learn Beyond Limits

归档

2026 年 01 月

第一节:计算机如何理解“意义”? (How do we represent meaning?) 在深入研究复杂的算法之前,我们需要先思考一个哲学问题:什么是“意义”(Meaning)? 1. 语言学中的“意义” 根据《韦伯斯特词典》的定义,意义通常指一个词、短语所代表的“思想”(Idea)。在传统

2025 年 10 月

一、基尼指数(Gini Index) 1.1 基尼指数的基本定义(Definition of Gini Index) 在分类问题中,一个节点内部样本越“混乱”,该节点就越不纯;反之,如果节点中的样本几乎都属于同一类,则说明该节点分类效果较好。
一、分类(Classification)的基本概念 1.1 有监督学习与无监督学习 在进入分类任务之前,需要先区分两个非常基础的概念:有监督学习和无监督学习。 有监督学习中

2025 年 09 月

一、什么是数据预处理(Introduction to Data Preprocessing) 在机器学习或数据挖掘中,我们常听到一句话:“数据质量决定模型上限”。 这句话背后的核心,其实就是数据预处理(Data Preprocessing)。 在真正建模之前,我们拿到的数据往往是杂乱的、不完整的、有
一、引言:从熵到互信息的思考 在信息论中,
一、熵的直观理解与基本概念 1.1 什么是熵? 在信息论中,熵(Entropy)用来衡量一个随机变量的不确定性大小。简单理解: 一个系统越“混乱”、越难预测,它的熵就越大; 一个系统越“有序”、结果越确定,它的熵就越小。 比如: 如果抛一枚均匀的硬币,正反两面出现的概率各是 0.5,这时结果很难预测
一、引言 在数据分析、机器学习和信息检索中,“相似度(similarity)”与“距离(distance)”是帮助我们理解对象之间关系的核心概念。无论是比较两篇文档的相似程度、判断两个时间序列是否具有相同趋势,还是评估样本之间的差异,不同的相似度度量方法往往会得出完全不同的结论。 在众多方法中,Pe
一、引言 相关性(Correlation)是数据挖掘和统计分析中最核心的概念之一,它描述了两个或多个变量之间的统计关系。在数据分析过程中,我们经常希望了解数据中的变量是否会同时变化、是否存在某种趋势上的关联,这些信息常常决定后续的建模方向和判断依据。 相关性的重要性体现在,它帮助我们理解数据结
一、引言 数据在现代分析、机器学习以及商业智能中扮演着核心角色。为了从数据中提取价值,我们不仅需要算法和工具,更需要理解数据本身的结构与形式。不同类型的数据集拥有不同的组织方式、特点和适用场景,因此在处理之前明确数据的类别是一项非常重要的前置步骤。 在数据挖掘与数据分析中,学者们通常会将数据集划分为
一、引言 在数据挖掘与机器学习中,我们经常强调“了解数据比使用模型更重要”。原因很简单:模型的表现往往不是由算法本身决定的,而是由数据的特征决定的。如果我们不了解数据的维度、稀疏性、分辨率以及规模,就无法正确选择分析方法,也无法判断模型是否能在这些数据上有效工作。 为了帮助你建立对“数据特征”的整体