【JAVA实现】基于皮尔逊相关系数的相似度计算

2023-10-25 03:18

本文主要是介绍【JAVA实现】基于皮尔逊相关系数的相似度计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。

       这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。

       皮尔逊数学公式如下,来自维基百科。


       其中,E数学期望,cov表示协方差\sigma_X\sigma_Y是标准差

       化简后得:



       皮尔逊相似度计算的算法还是很简单的,实现起来也不难。只要求变量X、Y、乘积XY,X的平方,Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下:

[java]  view plain copy
  1. package pearsonCorrelationScore;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.HashMap;  
  5. import java.util.List;  
  6. import java.util.Map;  
  7. import java.util.Map.Entry;  
  8.   
  9. /** 
  10.  * @author shenchao 
  11.  * 
  12.  *         皮尔逊相关度评价 
  13.  * 
  14.  *         以《集体智慧编程》一书用户评价相似度数据集做测试 
  15.  */  
  16. public class PearsonCorrelationScore {  
  17.   
  18.     private Map<String, Map<String, Double>> dataset = null;  
  19.   
  20.     public PearsonCorrelationScore() {  
  21.         initDataSet();  
  22.     }  
  23.   
  24.     /** 
  25.      * 初始化数据集 
  26.      */  
  27.     private void initDataSet() {  
  28.         dataset = new HashMap<String, Map<String, Double>>();  
  29.   
  30.         // 初始化Lisa Rose 数据集  
  31.         Map<String, Double> roseMap = new HashMap<String, Double>();  
  32.         roseMap.put("Lady in the water"2.5);  
  33.         roseMap.put("Snakes on a Plane"3.5);  
  34.         roseMap.put("Just My Luck"3.0);  
  35.         roseMap.put("Superman Returns"3.5);  
  36.         roseMap.put("You, Me and Dupree"2.5);  
  37.         roseMap.put("The Night Listener"3.0);  
  38.         dataset.put("Lisa Rose", roseMap);  
  39.   
  40.         // 初始化Jack Matthews 数据集  
  41.         Map<String, Double> jackMap = new HashMap<String, Double>();  
  42.         jackMap.put("Lady in the water"3.0);  
  43.         jackMap.put("Snakes on a Plane"4.0);  
  44.         jackMap.put("Superman Returns"5.0);  
  45.         jackMap.put("You, Me and Dupree"3.5);  
  46.         jackMap.put("The Night Listener"3.0);  
  47.         dataset.put("Jack Matthews", jackMap);  
  48.   
  49.         // 初始化Jack Matthews 数据集  
  50.         Map<String, Double> geneMap = new HashMap<String, Double>();  
  51.         geneMap.put("Lady in the water"3.0);  
  52.         geneMap.put("Snakes on a Plane"3.5);  
  53.         geneMap.put("Just My Luck"1.5);  
  54.         geneMap.put("Superman Returns"5.0);  
  55.         geneMap.put("You, Me and Dupree"3.5);  
  56.         geneMap.put("The Night Listener"3.0);  
  57.         dataset.put("Gene Seymour", geneMap);  
  58.     }  
  59.   
  60.     public Map<String, Map<String, Double>> getDataSet() {  
  61.         return dataset;  
  62.     }  
  63.   
  64.     /** 
  65.      * @param person1 
  66.      *            name 
  67.      * @param person2 
  68.      *            name 
  69.      * @return 皮尔逊相关度值 
  70.      */  
  71.     public double sim_pearson(String person1, String person2) {  
  72.         // 找出双方都评论过的电影,(皮尔逊算法要求)  
  73.         List<String> list = new ArrayList<String>();  
  74.         for (Entry<String, Double> p1 : dataset.get(person1).entrySet()) {  
  75.             if (dataset.get(person2).containsKey(p1.getKey())) {  
  76.                 list.add(p1.getKey());  
  77.             }  
  78.         }  
  79.   
  80.         double sumX = 0.0;  
  81.         double sumY = 0.0;  
  82.         double sumX_Sq = 0.0;  
  83.         double sumY_Sq = 0.0;  
  84.         double sumXY = 0.0;  
  85.         int N = list.size();  
  86.   
  87.         for (String name : list) {  
  88.             Map<String, Double> p1Map = dataset.get(person1);  
  89.             Map<String, Double> p2Map = dataset.get(person2);  
  90.   
  91.             sumX += p1Map.get(name);  
  92.             sumY += p2Map.get(name);  
  93.             sumX_Sq += Math.pow(p1Map.get(name), 2);  
  94.             sumY_Sq += Math.pow(p2Map.get(name), 2);  
  95.             sumXY += p1Map.get(name) * p2Map.get(name);  
  96.         }  
  97.   
  98.         double numerator = sumXY - sumX * sumY / N;  
  99.         double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)  
  100.                 * (sumY_Sq - sumY * sumY / N));  
  101.   
  102.         // 分母不能为0  
  103.         if (denominator == 0) {  
  104.             return 0;  
  105.         }  
  106.   
  107.         return numerator / denominator;  
  108.     }  
  109.   
  110.     public static void main(String[] args) {  
  111.         PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();  
  112.         System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",  
  113.                 "Jack Matthews"));  
  114.     }  
  115.   
  116. }  
        将各个测试集的数据反映到二维坐标面中,如下所示:


       上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间,其绝对值的大小反映了两者相似度大小,斜率越大,相似度越大,当相似度为1时,该直线为一条对角线。

这篇关于【JAVA实现】基于皮尔逊相关系数的相似度计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/279655

相关文章

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

java实现延迟/超时/定时问题

《java实现延迟/超时/定时问题》:本文主要介绍java实现延迟/超时/定时问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java实现延迟/超时/定时java 每间隔5秒执行一次,一共执行5次然后结束scheduleAtFixedRate 和 schedu

Java Optional避免空指针异常的实现

《JavaOptional避免空指针异常的实现》空指针异常一直是困扰开发者的常见问题之一,本文主要介绍了JavaOptional避免空指针异常的实现,帮助开发者编写更健壮、可读性更高的代码,减少因... 目录一、Optional 概述二、Optional 的创建三、Optional 的常用方法四、Optio

在Android平台上实现消息推送功能

《在Android平台上实现消息推送功能》随着移动互联网应用的飞速发展,消息推送已成为移动应用中不可或缺的功能,在Android平台上,实现消息推送涉及到服务端的消息发送、客户端的消息接收、通知渠道(... 目录一、项目概述二、相关知识介绍2.1 消息推送的基本原理2.2 Firebase Cloud Me

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

Redis实现延迟任务的三种方法详解

《Redis实现延迟任务的三种方法详解》延迟任务(DelayedTask)是指在未来的某个时间点,执行相应的任务,本文为大家整理了三种常见的实现方法,感兴趣的小伙伴可以参考一下... 目录1.前言2.Redis如何实现延迟任务3.代码实现3.1. 过期键通知事件实现3.2. 使用ZSet实现延迟任务3.3

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

idea maven编译报错Java heap space的解决方法

《ideamaven编译报错Javaheapspace的解决方法》这篇文章主要为大家详细介绍了ideamaven编译报错Javaheapspace的相关解决方法,文中的示例代码讲解详细,感兴趣的... 目录1.增加 Maven 编译的堆内存2. 增加 IntelliJ IDEA 的堆内存3. 优化 Mave

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

springboot filter实现请求响应全链路拦截

《springbootfilter实现请求响应全链路拦截》这篇文章主要为大家详细介绍了SpringBoot如何结合Filter同时拦截请求和响应,从而实现​​日志采集自动化,感兴趣的小伙伴可以跟随小... 目录一、为什么你需要这个过滤器?​​​二、核心实现:一个Filter搞定双向数据流​​​​三、完整代码