Euclidean Distance|欧式距离

bolin
发布于 2025-09-13 / 5 阅读
0
0

Euclidean Distance|欧式距离

一、欧式距离定义

DA2399E6-52BC-4DD2-A93F-ADE4B4D80081.png

欧氏距离(Euclidean Distance是最常见、最直观的距离度量方法,用于衡量两个点在空间中的“直线距离”。
它可以理解为在 n 维空间中,连接两点的最短路径长度。

数学定义如下:

4B5457A7-F7C1-4C12-89F1-FF969E82EF71.png

这里 xk 和 yk 分别是点 x 与 y 在第 k 个维度上的坐标。
该公式来源于勾股定理,是二维空间“直角三角形斜边”长度的推广。


通俗理解

如果你在地图上测量两地的直线距离,而不考虑地形、道路等曲折因素,
那么你测到的就是欧氏距离。
比如两个点 A(2,3) 与 B(5,7),
它们之间的距离为:

F42F14E3-08DF-4E4D-A0EA-94E37662BC00.png

欧氏距离越小,两个点越“接近”;越大,差异越明显。


欧氏距离属于“差异度量”

与“相似度量(similarity measure)”不同,
欧氏距离越大代表差异越大,
因此常用于分类、聚类等算法中,帮助我们“区分”不同对象。


二、几何直观

C413B4F4-D4FC-4562-A41C-1BCAF5E49237.png
在二维平面上,假设有两个点:

4582D7BD-5A78-4804-A05A-D166395DF92A.png

那么它们的欧氏距离为:

260AA44E-22D9-4806-9C7F-D62BD7FDBC90.png

从几何角度看,这个公式正是由勾股定理推导而来:

  • x2−x1表示在 x 轴上的水平差距;

  • y2−y1 表示在 y 轴上的垂直差距;

  • 将这两条边视作直角三角形的两条直角边,
    斜边长度即为两点间的最短距离,也就是欧氏距离。

在三维空间中,欧氏距离扩展为:

210A5DBB-0484-4C7A-B3D2-9D58D539E9C3.png

同理,在 n 维空间中,只需在根号内继续累加各维度的平方差。


直观理解

在二维平面上,以某个点为中心、距离为常数 rr 时,
所有与该点距离相等的点构成一个
在三维空间中则是一个球面
这说明欧氏距离是各方向等权、对称的。


三、实例计算

58F73C84-F7D9-4619-919C-A99A20036A36.png

在理解了欧氏距离的几何意义后,我们来看一个更贴近数据分析实践的计算示例。
表中展示了一个点 x=(1.4,1.6) 与多个数据点 Ai 之间的欧氏距离计算结果。
每个样本 AiAi​ 都由两个维度组成(A₁ 和 A₂),代表二维空间中的坐标点。

欧氏距离的计算公式为:

1FFC1FBF-D731-4763-9085-A97D0A3C35C1.png

例如,对于第一个点 A1=(1.5,1.7):

04B97519-A7BB-46F6-B59B-4EBECD8C43AB.png

依此类推,我们可以计算出与每个样本的距离。
这些距离反映了目标点 (1.4,1.6) 与不同数据点之间的相似程度——
距离越小,表示两个样本越接近,也越相似。


分析与应用

  1. 距离最小即最相似:从表中可见,第一个点距离最小(0.1414),
    因此 A1​ 是与 x 最相似的样本。

  2. 在分类问题中的意义:在 K-近邻算法(KNN)等模型中,
    这种“距离最小原则”常被用来判断未知样本的类别。

  3. 可扩展到高维空间:虽然这里展示的是二维示例,
    但公式可以轻松推广到 n 维,计算方式保持一致。


四、实际应用与思考

在数据科学与机器学习的实际场景中,欧氏距离被广泛用于衡量样本间的相似度。
然而,在真正应用时,我们必须考虑到数据的特征分布、量纲差异与噪声影响。


1. 标准化的重要性

欧氏距离对特征的尺度(scale)十分敏感。
例如,若一个特征以“厘米”为单位,而另一个特征以“万元”为单位,
则后者的数值范围更大,会在距离计算中占据主导地位。

为避免这种偏差,常见的解决方式包括:

  • Min-Max 归一化:将每个特征线性压缩到 [0, 1] 区间;

  • Z-score 标准化:将特征调整为均值为 0、方差为 1 的分布。

经过标准化后的欧氏距离能更公平地反映各维度的差异。


2. 高维数据的挑战

在高维空间(例如 100 个以上的特征)中,欧氏距离容易出现“距离集中”问题:
不同样本之间的距离差异变得极小,导致相似度判定失效。
这种现象被称为 “维度灾难(Curse of Dimensionality)”

解决思路包括:

  • 使用主成分分析(PCA) 降维,提取主要特征;

  • 采用加权欧氏距离,为不同特征赋予不同的重要性权重。


3. 欧氏距离的典型应用

欧氏距离的思想简洁且直观,因此在多个算法中都扮演着核心角色:

  • K-近邻算法(KNN):通过计算测试样本与训练样本的欧氏距离来分类。

  • K-Means 聚类:利用欧氏距离判断样本与聚类中心的相似度。

  • 异常检测(Outlier Detection):距离过大的点被视为潜在异常值。

这些算法的共同点在于:以空间几何的角度度量样本间的关系
而欧氏距离正是这种度量的最自然表达方式。



评论