【JAVA实现】基于皮尔逊相关系数的相似度计算

2023-10-25 03:18

本文主要是介绍【JAVA实现】基于皮尔逊相关系数的相似度计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。

       这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。

       皮尔逊数学公式如下,来自维基百科。


       其中,E数学期望,cov表示协方差\sigma_X\sigma_Y是标准差

       化简后得:



       皮尔逊相似度计算的算法还是很简单的,实现起来也不难。只要求变量X、Y、乘积XY,X的平方,Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下:

[java]  view plain copy
  1. package pearsonCorrelationScore;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.HashMap;  
  5. import java.util.List;  
  6. import java.util.Map;  
  7. import java.util.Map.Entry;  
  8.   
  9. /** 
  10.  * @author shenchao 
  11.  * 
  12.  *         皮尔逊相关度评价 
  13.  * 
  14.  *         以《集体智慧编程》一书用户评价相似度数据集做测试 
  15.  */  
  16. public class PearsonCorrelationScore {  
  17.   
  18.     private Map<String, Map<String, Double>> dataset = null;  
  19.   
  20.     public PearsonCorrelationScore() {  
  21.         initDataSet();  
  22.     }  
  23.   
  24.     /** 
  25.      * 初始化数据集 
  26.      */  
  27.     private void initDataSet() {  
  28.         dataset = new HashMap<String, Map<String, Double>>();  
  29.   
  30.         // 初始化Lisa Rose 数据集  
  31.         Map<String, Double> roseMap = new HashMap<String, Double>();  
  32.         roseMap.put("Lady in the water"2.5);  
  33.         roseMap.put("Snakes on a Plane"3.5);  
  34.         roseMap.put("Just My Luck"3.0);  
  35.         roseMap.put("Superman Returns"3.5);  
  36.         roseMap.put("You, Me and Dupree"2.5);  
  37.         roseMap.put("The Night Listener"3.0);  
  38.         dataset.put("Lisa Rose", roseMap);  
  39.   
  40.         // 初始化Jack Matthews 数据集  
  41.         Map<String, Double> jackMap = new HashMap<String, Double>();  
  42.         jackMap.put("Lady in the water"3.0);  
  43.         jackMap.put("Snakes on a Plane"4.0);  
  44.         jackMap.put("Superman Returns"5.0);  
  45.         jackMap.put("You, Me and Dupree"3.5);  
  46.         jackMap.put("The Night Listener"3.0);  
  47.         dataset.put("Jack Matthews", jackMap);  
  48.   
  49.         // 初始化Jack Matthews 数据集  
  50.         Map<String, Double> geneMap = new HashMap<String, Double>();  
  51.         geneMap.put("Lady in the water"3.0);  
  52.         geneMap.put("Snakes on a Plane"3.5);  
  53.         geneMap.put("Just My Luck"1.5);  
  54.         geneMap.put("Superman Returns"5.0);  
  55.         geneMap.put("You, Me and Dupree"3.5);  
  56.         geneMap.put("The Night Listener"3.0);  
  57.         dataset.put("Gene Seymour", geneMap);  
  58.     }  
  59.   
  60.     public Map<String, Map<String, Double>> getDataSet() {  
  61.         return dataset;  
  62.     }  
  63.   
  64.     /** 
  65.      * @param person1 
  66.      *            name 
  67.      * @param person2 
  68.      *            name 
  69.      * @return 皮尔逊相关度值 
  70.      */  
  71.     public double sim_pearson(String person1, String person2) {  
  72.         // 找出双方都评论过的电影,(皮尔逊算法要求)  
  73.         List<String> list = new ArrayList<String>();  
  74.         for (Entry<String, Double> p1 : dataset.get(person1).entrySet()) {  
  75.             if (dataset.get(person2).containsKey(p1.getKey())) {  
  76.                 list.add(p1.getKey());  
  77.             }  
  78.         }  
  79.   
  80.         double sumX = 0.0;  
  81.         double sumY = 0.0;  
  82.         double sumX_Sq = 0.0;  
  83.         double sumY_Sq = 0.0;  
  84.         double sumXY = 0.0;  
  85.         int N = list.size();  
  86.   
  87.         for (String name : list) {  
  88.             Map<String, Double> p1Map = dataset.get(person1);  
  89.             Map<String, Double> p2Map = dataset.get(person2);  
  90.   
  91.             sumX += p1Map.get(name);  
  92.             sumY += p2Map.get(name);  
  93.             sumX_Sq += Math.pow(p1Map.get(name), 2);  
  94.             sumY_Sq += Math.pow(p2Map.get(name), 2);  
  95.             sumXY += p1Map.get(name) * p2Map.get(name);  
  96.         }  
  97.   
  98.         double numerator = sumXY - sumX * sumY / N;  
  99.         double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)  
  100.                 * (sumY_Sq - sumY * sumY / N));  
  101.   
  102.         // 分母不能为0  
  103.         if (denominator == 0) {  
  104.             return 0;  
  105.         }  
  106.   
  107.         return numerator / denominator;  
  108.     }  
  109.   
  110.     public static void main(String[] args) {  
  111.         PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();  
  112.         System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",  
  113.                 "Jack Matthews"));  
  114.     }  
  115.   
  116. }  
        将各个测试集的数据反映到二维坐标面中,如下所示:


       上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间,其绝对值的大小反映了两者相似度大小,斜率越大,相似度越大,当相似度为1时,该直线为一条对角线。

这篇关于【JAVA实现】基于皮尔逊相关系数的相似度计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/279655

相关文章

springboot健康检查监控全过程

《springboot健康检查监控全过程》文章介绍了SpringBoot如何使用Actuator和Micrometer进行健康检查和监控,通过配置和自定义健康指示器,开发者可以实时监控应用组件的状态,... 目录1. 引言重要性2. 配置Spring Boot ActuatorSpring Boot Act

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

java如何分布式锁实现和选型

《java如何分布式锁实现和选型》文章介绍了分布式锁的重要性以及在分布式系统中常见的问题和需求,它详细阐述了如何使用分布式锁来确保数据的一致性和系统的高可用性,文章还提供了基于数据库、Redis和Zo... 目录引言:分布式锁的重要性与分布式系统中的常见问题和需求分布式锁的重要性分布式系统中常见的问题和需求

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单

《Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单》:本文主要介绍Springboot的ThreadPoolTaskScheduler线... 目录ThreadPoolTaskScheduler线程池实现15分钟不操作自动取消订单概要1,创建订单后

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧