Mahalanobis距离的计算

2024-06-15 16:38
文章标签 计算 距离 mahalanobis

本文主要是介绍Mahalanobis距离的计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

20210306 -

0.引言

通过scipy的距离库[1],可以方便的计算向量空间中两个点的距离,例如欧式距离,cos距离等,使用方法可以见[2]。而这个函数cdist在计算该距离的时候,通过集中方法,结果上却稍有不同,在这里记录一下,主要研究在数据量比较大的时候如何计算,如果仅仅是两个点的距离,直接使用from scipy.spatial.distance import mahalanobis即可,这要是为什么要引入cdist的原因。

1. cdist

如果是使用cdist的话,使用方法跟欧式距离没有什么区别,但是当参数输入不对的时候,例如输入两个1-d数组,而且指定协方差矩阵的逆,依然不能得到结果,会报错说第二个矩阵应该是大矩阵,不然无法求出协方差矩阵;如果是第二个参数指定了具体的原始矩阵,能够得出结果,此时第一个参数是均值,本质上这样计算就是为了计算,这个矩阵和第一个参数的距离结果。但是结果跟其他的几个方法也不太一样。

所以,暂时还是放弃这种方法,官方文档上关于这部分也没有具体距离,暂时就不看了。

2. 第三方的代码方法

这里选取了两种方法,一种是针对数据量比较少的情况下, 直接来进行计算即可;另一种如果是数据量比较大,那么就需要利用一些矩阵计算的方法来计算整个结果,不然就太慢了。

2.1 依赖scipy的距离函数来计算

def mahalanobis_distances(df, axis=0):'''Returns a pandas Series with Mahalanobis distances for each sample on theaxis.Note: does not work well when # of observations < # of dimensionsWill either return NaN in answeror (in the extreme case) fail with a Singular Matrix LinAlgErrorArgs:df: pandas DataFrame with columns to run diagnostics onaxis: 0 to find outlier rows, 1 to find outlier columns'''df = df.transpose() if axis == 1 else dfmeans = df.mean()try:inv_cov = np.linalg.inv(df.cov())except LinAlgError:return pd.Series([np.NAN] * len(df.index), df.index,name='Mahalanobis')dists = []for i, sample in df.iterrows():dists.append(mahalanobis(sample, means, inv_cov))return pd.Series(dists, df.index, name='Mahalanobis') 

上述代码来源于[3],整体思路还是比较简单的,利用已有的两个一维向量的计算库;但是如果是比较大的数据量的话,通过这种方式来计算,会非常耗时,之前的时候我测试既往的数据量就发现了。

2.2 矩阵计算方式

目前没有具体去看代码的公式是什么意思,但是通过计算之后,我对比和前面代码的结果,两个是一样的。

#create function to calculate Mahalanobis distance
def mahalanobis(x=None, data=None, cov=None):x_mu = x - np.mean(data)if not cov:cov = np.cov(data.values.T)inv_covmat = np.linalg.inv(cov)left = np.dot(x_mu, inv_covmat)mahal = np.dot(left, x_mu.T)return mahal.diagonal()

代码来源于文章[4],上述代码的具体工作方式是这样的:x是实际上要计算距离的矩阵,而data是提供均值和协方差矩阵的来源。所以计算的时候,一定要注意,而且这里这个代码实际上是针对DataFrame来实现的,参数如果是numpy的数组的话要进行一些修改。

参考

[1]scipy.spatial.distance.cdist
[2]numpy的相关使用方法
[3]Python scipy.spatial.distance.mahalanobis() Examples
[4]How to Calculate Mahalanobis Distance in Python

这篇关于Mahalanobis距离的计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1063996

相关文章

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

计算数组的斜率,偏移,R2

模拟Excel中的R2的计算。         public bool fnCheckRear_R2(List<double[]> lRear, int iMinRear, int iMaxRear, ref double dR2)         {             bool bResult = true;             int n = 0;             dou

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

Java - BigDecimal 计算分位(百分位)

日常开发中,如果使用数据库来直接查询一组数据的分位数,就比较简单,直接使用对应的函数就可以了,例如:         PERCENT_RANK() OVER(PARTITION BY 分组列名 ORDER BY 目标列名) AS 目标列名_分位数         如果是需要在代码逻辑部分进行分位数的计算,就需要我们自己写一个工具类来支持计算了 import static ja

OpenStack离线Train版安装系列—2计算节点-环境准备

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成