第一节:NLP 分类任务的本质挑战 在自然语言处理(NLP)的演进过程中,我们始终在解决一个核心矛盾:语言的离散符号本性与语义的连续复杂性之间的冲突。 从离散符号到分布式表示 早期的 NLP 依赖于独热编码(One-hot encoding),这种方式将单词视为孤立的符号,无法捕捉词与词之间的相似性
第一节:机器如何“理解”语义? 在深度学习统治自然语言处理(NLP)之前,计算机看待单词的方式非常简单:每一个词都被视为一个孤立的符号。通常我们使用 One-hot 编码,即给每个词一个极长的向量,其中只有一个位置是 1,其余全是 0。 但这种方法有一个致命的缺陷:它无法表达词与词之间的关系。在 O
第一节:计算机如何理解“意义”? (How do we represent meaning?) 在深入研究复杂的算法之前,我们需要先思考一个哲学问题:什么是“意义”(Meaning)? 1. 语言学中的“意义” 根据《韦伯斯特词典》的定义,意义通常指一个词、短语所代表的“思想”(Idea)。在传统
一、基尼指数(Gini Index) 1.1 基尼指数的基本定义(Definition of Gini Index) 在分类问题中,一个节点内部样本越“混乱”,该节点就越不纯;反之,如果节点中的样本几乎都属于同一类,则说明该节点分类效果较好。
一、分类(Classification)的基本概念 1.1 有监督学习与无监督学习 在进入分类任务之前,需要先区分两个非常基础的概念:有监督学习和无监督学习。 有监督学习中
一、什么是数据预处理(Introduction to Data Preprocessing) 在机器学习或数据挖掘中,我们常听到一句话:“数据质量决定模型上限”。 这句话背后的核心,其实就是数据预处理(Data Preprocessing)。 在真正建模之前,我们拿到的数据往往是杂乱的、不完整的、有
一、熵的直观理解与基本概念 1.1 什么是熵? 在信息论中,熵(Entropy)用来衡量一个随机变量的不确定性大小。简单理解: 一个系统越“混乱”、越难预测,它的熵就越大; 一个系统越“有序”、结果越确定,它的熵就越小。 比如: 如果抛一枚均匀的硬币,正反两面出现的概率各是 0.5,这时结果很难预测
一、引言 在数据分析、机器学习和信息检索中,“相似度(similarity)”与“距离(distance)”是帮助我们理解对象之间关系的核心概念。无论是比较两篇文档的相似程度、判断两个时间序列是否具有相同趋势,还是评估样本之间的差异,不同的相似度度量方法往往会得出完全不同的结论。 在众多方法中,Pe
一、引言 相关性(Correlation)是数据挖掘和统计分析中最核心的概念之一,它描述了两个或多个变量之间的统计关系。在数据分析过程中,我们经常希望了解数据中的变量是否会同时变化、是否存在某种趋势上的关联,这些信息常常决定后续的建模方向和判断依据。 相关性的重要性体现在,它帮助我们理解数据结