马氏距离(Mahalanobis distance)是一种度量两个点之间“距离”的方法,会考虑数据各维度的尺度差异以及维度之间的相关性(协方差)。它常用于异常检测、聚类、分类与多元统计分析。除“点到点”,也常指“样本点到某个分布/均值”的距离。
/ˌmɑːhəˈlɑːnəʊbɪs ˈdɪstəns/
The Mahalanobis distance helps detect outliers in a dataset.
马氏距离有助于在数据集中检测离群点。
Because it accounts for the covariance structure, the Mahalanobis distance can compare feature vectors fairly even when variables are correlated and measured on different scales.
由于它考虑了协方差结构,马氏距离即使在变量彼此相关且量纲不同的情况下,也能更公平地比较特征向量。
该术语以印度统计学家 Prasanta Chandra Mahalanobis(普拉桑塔·钱德拉·马哈拉诺比斯)命名;“distance”意为“距离”。马氏距离源于多元统计中用协方差矩阵对差异进行“标准化”的思想,在20世纪统计学与模式识别发展中被广泛采用。