距离度量方法——余弦相似度、汉明距离、马氏距离、编辑距离

2024-04-09 14:36

本文主要是介绍距离度量方法——余弦相似度、汉明距离、马氏距离、编辑距离,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、 余弦相似度(Cosine Similarity)

1、简介

2、代码实现

二、汉明距离(Hamming Distance)

1、简介

2、代码实现

三、马氏距离(Mahalanobis Distance)

1、简介

2、代码实现

四、编辑距离(Levenshtein Distance)

1、简介

2、代码实现


一、 余弦相似度(Cosine Similarity)

1、简介

  • 余弦相似度是一种常用的向量相似性度量方法,通常用于文本挖掘、信息检索和推荐系统等领域。它衡量了两个向量之间的夹角的余弦值,而不考虑它们的大小。
  • 余弦相似度的计算公式如下:
    • d(A,B)=\frac{AB}{\left \| A \right \|\left \| B \right \|},其中 A 和 B 是两个向量,||A|| 表示向量 A 的模长。

2、代码实现

  • 计算两个向量 a(1,2,3)b(4,5,6) 之间的余弦相似度。
  • import numpy as npdef cosine_similarity(a, b):dot_product = np.dot(a, b)norm_a = np.linalg.norm(a)norm_b = np.linalg.norm(b)similarity = dot_product / (norm_a * norm_b)return similaritya = np.array([1, 2, 3])
    b = np.array([4, 5, 6])
    similarity = cosine_similarity(a, b)
    print("余弦相似度:", similarity)

二、汉明距离(Hamming Distance)

1、简介

  • 汉明距离是一种用于比较两个等长字符串之间的差异性的度量。它衡量了两个字符串之间在相同位置上不同字符的数量。具体来说,汉明距离是通过对比两个字符串中对应位置上的字符来计算的,不同字符的数量即为汉明距离。
  • 例如,假设有两个等长字符串 "1011101" 和 "1001001",它们之间的汉明距离为 2,因为在第 2 和第 5 个位置上的字符不同。

2、代码实现

  • 计算两个字符串 26d700000006000100520004 和 17eb00000006000100480003 之间的汉明距离。
  • def hamming_distance(str1, str2):if len(str1) != len(str2):raise ValueError("两个字符串必须具有相同的长度")distance = sum(c1 != c2 for c1, c2 in zip(str1, str2))return distancestr1 = "26d700000006000100520004"
    str2 = "17eb00000006000100480003"
    distance = hamming_distance(str1, str2)
    print("汉明距离:", distance)

三、马氏距离(Mahalanobis Distance)

1、简介

  • 马氏距离是一种考虑了数据协方差结构的距离度量方法,通常用于多维空间中数据点之间的距离计算。它衡量了两个数据点在多维空间中的差异性,同时考虑了各个特征之间的相关性。
  • 马氏距离可以看作是欧氏距离的一种修正,修正了欧氏距离中各维度尺度不一致且相关的问题。
  • 单个数据点的马氏距离:
    • d(x)=\sqrt{(x-\mu )^TS^{-1}(x-\mu)},其中 \mu 为样本均值。
  • 数据点 x, y 之间的马氏距离:
    • d(x,y)=\sqrt{(x-y)^TS^{-1}(x-y)},其中 S^{-1} 为样本集的协方差矩阵的逆矩阵。
    • 协方差矩阵的计算公式如下:
      • S=\frac{1}{n-1}\sum_{i}^{n}(x_i-\bar{x})(x_i-\bar{x})^T,其中 x_i 表示第 i 个样本,\bar{x} 表示所有样本的均值向量。(x_i-\bar{x}) 是每个样本与均值向量的偏差,(x_i-\bar{x})^T 表示它的转置。

2、代码实现

  • 计算一样本数据集 { [1, 2], [3, 4], [4, 6], [6, 8] },其中两个数据 [1, 2] 和 [3, 4] 的马氏距离。
  • import numpy as npdef mahalanobis_distance(x, y, covariance_inv):diff = np.array(x) - np.array(y)distance = np.sqrt(np.dot(np.dot(diff, covariance_inv), diff.T))return distance# 计算协方差矩阵
    data = np.array([[1, 2], [3, 4], [4, 6], [6, 8]])  # 样本数据
    covariance_matrix = np.cov(data, rowvar=False)  # 计算协方差矩阵# 计算协方差矩阵的逆矩阵
    covariance_inv = np.linalg.inv(covariance_matrix)# 两个点
    x = [1, 2]
    y = [3, 4]# 计算马氏距离
    distance = mahalanobis_distance(x, y, covariance_inv)
    print("马氏距离:", distance)

四、编辑距离(Levenshtein Distance)

1、简介

  • 编辑距离是衡量两个字符串之间的相似度的一种度量方法。它表示通过插入、删除或替换操作将一个字符串转换为另一个字符串所需的最小编辑次数。
  • 每次修改的方式如下:
    • 增加一个字符。如:abc -> abcd
    • 删除一个字符。如:abc -> ab
    • 修改一个字符。如:abc -> abd

2、代码实现

  • 计算两个字符串 26d700000006000100520004 和 17eb00000006000100480003 之间的编辑距离。
  • def edit_distance(str1, str2):m = len(str1)n = len(str2)# 创建一个(m+1) x (n+1)的二维数组来保存编辑距离dp = [[0] * (n + 1) for _ in range(m + 1)]# 初始化第一行和第一列for i in range(m + 1):dp[i][0] = ifor j in range(n + 1):dp[0][j] = j# 动态规划计算编辑距离for i in range(1, m + 1):for j in range(1, n + 1):if str1[i - 1] == str2[j - 1]:dp[i][j] = dp[i - 1][j - 1]else:dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1return dp[m][n]str1 = "26d700000006000100520004"
    str2 = "17eb00000006000100480003"
    distance = edit_distance(str1, str2)
    print("编辑距离:", distance)

这篇关于距离度量方法——余弦相似度、汉明距离、马氏距离、编辑距离的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/888417

相关文章

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

macOS无效Launchpad图标轻松删除的4 种实用方法

《macOS无效Launchpad图标轻松删除的4种实用方法》mac中不在appstore上下载的应用经常在删除后它的图标还残留在launchpad中,并且长按图标也不会出现删除符号,下面解决这个问... 在 MACOS 上,Launchpad(也就是「启动台」)是一个便捷的 App 启动工具。但有时候,应

SpringBoot日志配置SLF4J和Logback的方法实现

《SpringBoot日志配置SLF4J和Logback的方法实现》日志记录是不可或缺的一部分,本文主要介绍了SpringBoot日志配置SLF4J和Logback的方法实现,文中通过示例代码介绍的非... 目录一、前言二、案例一:初识日志三、案例二:使用Lombok输出日志四、案例三:配置Logback一

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE