【JAVA实现】基于皮尔逊相关系数的相似度计算

2023-10-25 03:18

本文主要是介绍【JAVA实现】基于皮尔逊相关系数的相似度计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。

       这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。

       皮尔逊数学公式如下,来自维基百科。


       其中,E数学期望,cov表示协方差\sigma_X\sigma_Y是标准差

       化简后得:



       皮尔逊相似度计算的算法还是很简单的,实现起来也不难。只要求变量X、Y、乘积XY,X的平方,Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下:

[java]  view plain copy
  1. package pearsonCorrelationScore;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.HashMap;  
  5. import java.util.List;  
  6. import java.util.Map;  
  7. import java.util.Map.Entry;  
  8.   
  9. /** 
  10.  * @author shenchao 
  11.  * 
  12.  *         皮尔逊相关度评价 
  13.  * 
  14.  *         以《集体智慧编程》一书用户评价相似度数据集做测试 
  15.  */  
  16. public class PearsonCorrelationScore {  
  17.   
  18.     private Map<String, Map<String, Double>> dataset = null;  
  19.   
  20.     public PearsonCorrelationScore() {  
  21.         initDataSet();  
  22.     }  
  23.   
  24.     /** 
  25.      * 初始化数据集 
  26.      */  
  27.     private void initDataSet() {  
  28.         dataset = new HashMap<String, Map<String, Double>>();  
  29.   
  30.         // 初始化Lisa Rose 数据集  
  31.         Map<String, Double> roseMap = new HashMap<String, Double>();  
  32.         roseMap.put("Lady in the water"2.5);  
  33.         roseMap.put("Snakes on a Plane"3.5);  
  34.         roseMap.put("Just My Luck"3.0);  
  35.         roseMap.put("Superman Returns"3.5);  
  36.         roseMap.put("You, Me and Dupree"2.5);  
  37.         roseMap.put("The Night Listener"3.0);  
  38.         dataset.put("Lisa Rose", roseMap);  
  39.   
  40.         // 初始化Jack Matthews 数据集  
  41.         Map<String, Double> jackMap = new HashMap<String, Double>();  
  42.         jackMap.put("Lady in the water"3.0);  
  43.         jackMap.put("Snakes on a Plane"4.0);  
  44.         jackMap.put("Superman Returns"5.0);  
  45.         jackMap.put("You, Me and Dupree"3.5);  
  46.         jackMap.put("The Night Listener"3.0);  
  47.         dataset.put("Jack Matthews", jackMap);  
  48.   
  49.         // 初始化Jack Matthews 数据集  
  50.         Map<String, Double> geneMap = new HashMap<String, Double>();  
  51.         geneMap.put("Lady in the water"3.0);  
  52.         geneMap.put("Snakes on a Plane"3.5);  
  53.         geneMap.put("Just My Luck"1.5);  
  54.         geneMap.put("Superman Returns"5.0);  
  55.         geneMap.put("You, Me and Dupree"3.5);  
  56.         geneMap.put("The Night Listener"3.0);  
  57.         dataset.put("Gene Seymour", geneMap);  
  58.     }  
  59.   
  60.     public Map<String, Map<String, Double>> getDataSet() {  
  61.         return dataset;  
  62.     }  
  63.   
  64.     /** 
  65.      * @param person1 
  66.      *            name 
  67.      * @param person2 
  68.      *            name 
  69.      * @return 皮尔逊相关度值 
  70.      */  
  71.     public double sim_pearson(String person1, String person2) {  
  72.         // 找出双方都评论过的电影,(皮尔逊算法要求)  
  73.         List<String> list = new ArrayList<String>();  
  74.         for (Entry<String, Double> p1 : dataset.get(person1).entrySet()) {  
  75.             if (dataset.get(person2).containsKey(p1.getKey())) {  
  76.                 list.add(p1.getKey());  
  77.             }  
  78.         }  
  79.   
  80.         double sumX = 0.0;  
  81.         double sumY = 0.0;  
  82.         double sumX_Sq = 0.0;  
  83.         double sumY_Sq = 0.0;  
  84.         double sumXY = 0.0;  
  85.         int N = list.size();  
  86.   
  87.         for (String name : list) {  
  88.             Map<String, Double> p1Map = dataset.get(person1);  
  89.             Map<String, Double> p2Map = dataset.get(person2);  
  90.   
  91.             sumX += p1Map.get(name);  
  92.             sumY += p2Map.get(name);  
  93.             sumX_Sq += Math.pow(p1Map.get(name), 2);  
  94.             sumY_Sq += Math.pow(p2Map.get(name), 2);  
  95.             sumXY += p1Map.get(name) * p2Map.get(name);  
  96.         }  
  97.   
  98.         double numerator = sumXY - sumX * sumY / N;  
  99.         double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)  
  100.                 * (sumY_Sq - sumY * sumY / N));  
  101.   
  102.         // 分母不能为0  
  103.         if (denominator == 0) {  
  104.             return 0;  
  105.         }  
  106.   
  107.         return numerator / denominator;  
  108.     }  
  109.   
  110.     public static void main(String[] args) {  
  111.         PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();  
  112.         System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",  
  113.                 "Jack Matthews"));  
  114.     }  
  115.   
  116. }  
        将各个测试集的数据反映到二维坐标面中,如下所示:


       上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间,其绝对值的大小反映了两者相似度大小,斜率越大,相似度越大,当相似度为1时,该直线为一条对角线。

这篇关于【JAVA实现】基于皮尔逊相关系数的相似度计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/279655

相关文章

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一