推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?

本文主要是介绍推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 相似度的本质
  • 相似度的计算方法:
    • 1、欧式距离
    • 2、余弦相似度
    • 3、皮尔逊相关度
    • 4 、杰卡德(Jaccard)相似度
  • 总结

相似度的本质

推荐系统中,推荐算法分为两个门派,一个是机器学习派,一个是相似度门派。机器学习派是后起之秀,而相似度门派则是泰山北斗。
近邻推荐,近邻并不一定只是在三维空间下的地理位置的近邻,也可以是高维空间的近邻。

近邻推荐的核心就是相似度计算方法的选择,由于近邻推荐并没有采用最优化思路,所以效果通常取决于矩阵的量化方式和相似度的选择。

相似度,与之相对应的一个概念是距离,两者都可以用来度量两个物体在高维空间中的亲疏关系。

推荐系统中的相似度门派,实际上有这么一个潜在假设:如果两个物体很相似,也就是距离很近,那么这两个物体就很容易产生一样的动作。

在近邻推荐中,最常用的相似度是余弦相似度,除了余弦相似度,还有欧式距离,皮尔逊相关度,自适应余弦相似度,局部敏感哈希等,使用场景各有不同,今天,我会分别一一介绍。

相似度的计算方法:

数据分类
相似度计算对象是向量,或者叫做高维空间下的坐标。那表示这个向量的数值就有两只能够:
1、实数值;
2、布尔值,也就是0或1;

下面介绍的不同计算方法适用于不同的数据种类。

1、欧式距离

欧氏距离,是一个欧式空间下度量距离的方法。两个物体,都在同一空间下表示为两个点,假如叫做p和q,分别都是n个坐标。那么欧式距离就是衡量这两个点之间的距离,欧式距离不适合布尔向量之间。
计算公式如下:
E ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 E(p,q) = \sqrt {\sum_{i=1}^n{(p_i - q_i)^2}} E(p,q)=i=1n(piqi)2

这个公式就是:每个坐标上的值相减,求平方和,最后输出方根。
显然,欧式距离得到的值是一个非负数,通常相似度计算度量结果希望是[-1,1]或者[0,1]之间,所以欧式距离无法直接应用到这种场景下,需要转换,最常用的转换公式如下:

1 1 + E ( p , q ) \frac{1}{1+ E(p,q)} 1+E(p,q)1
距离加一后取倒数。这个公式能够把范围为0到正无穷的欧式距离转换为0到1的相似度。
欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;

2、余弦相似度

余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。当两个向量的夹角为0度时,余弦值为1,当夹角为90度时,余弦值为0,当夹角为180度时,余弦值为-1。

余弦相似度在度量文本相似度,用户相似度、物品相似度的时候都比较常用;但是需要注意的是,余弦相似度的特点:它与向量的长度无关。因此,余弦相似度计算时需要对向量长度做归一化;
c o s ( p , q ) = ∑ i = 1 n p i ∗ q i ∑ i = 1 n p i 2 ∗ ∑ i = 1 n q i 2 cos(p,q) = \frac{\sum_{i=1}^n{p_i * q_i}}{\sqrt{\sum_{i=1}^n{p_i}^2 } * \sqrt{\sum_{i=1}^n{q_i}^2 }} cos(p,q)=i=1npi2 i=1nqi2 i=1npiqi

经过向量长度归一化后的相似度量方式,背后隐藏着这样一种思想:两个向量,只要方向一致,无论程度强弱,都可以视为相似。

在协同过滤中,如果选择余弦相似度,某种程度上更加依赖两个物品的共同评价用户数,而不是用户给与的评分多少。这是由于余弦相似度被向量长度归一化后的结果。

余弦相似度对绝对绝对值大小不敏感这件事,在某些应用上仍然有些问题。

举个例子,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分。用余弦相似度计算出来,两个用户的相似度达到0.98.这显然与实际不符,用户A明显不喜欢这两部电影。

用户电影1电影2
用户A12
用户B45

计算用户A和用户B的余弦相似度:
c o s ( A , B ) = 1 ∗ 4 + 2 ∗ 5 1 2 + 2 2 ∗ 4 2 + 5 2 = 14 205 ≈ 0.98 cos(A,B) =\frac{1*4+ 2*5}{ \sqrt{1^2+2^2} * \sqrt{4^2+5^2}} = \frac{14}{\sqrt{205}}≈0.98 cos(A,B)=12+22 42+52 14+25=205 140.98

针对这个问题,对余弦相似度有个改进,改进的算法叫做调整的余弦相似度(Adjusted Cosine Similarity)。调整的方法很简单,就是先计算向量每个维度上的均值,然后每个向量在各个维度上都减去均值后,再计算余弦相似度。
电影1平均分为:(1+4)/2 =2.5; 电影2平均分为:(2+5)/2 =3.5;

c o s ( A , B ) = ( 1 − 2.5 ) ∗ ( 4 − 2.5 ) + ( 2 − 3.5 ) ∗ ( 5 − 3.5 ) ( 1 − 2.5 ) 2 + ( 2 − 3.5 ) 2 ∗ ( 4 − 2.5 ) 2 + ( 5 − 3.5 ) 2 = − 4.5 4.5 = − 1 cos(A,B) =\frac{(1-2.5)*(4-2.5)+ (2-3.5)*(5-3.5)}{ \sqrt{(1-2.5)^2+(2-3.5)^2} * \sqrt{(4-2.5)^2+(5-3.5)^2}} = \frac{-4.5}{\sqrt{4.5}}=-1 cos(A,B)=(12.5)2+(23.5)2 (42.5)2+(53.5)2 (12.5)(42.5)+(23.5)(53.5)=4.5 4.5=1

用调整后的余弦相似度计算得到的相似度是-1,呈现出两个用户口味相反,和直觉相符。

3、皮尔逊相关度

皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和向量q各自减去向量的均值后,再计算余弦相似度。
R ( p , q ) = ∑ i = 1 n ( p i − u p ) ∗ ( q i − u q ) ∑ i = 1 n ( p i − u p ) 2 ∗ ∑ i = 1 n ( q i − u q ) 2 R(p,q) = \frac{\sum_{i=1}^n{(p_i - u_p) *(q_i -u_q)}}{\sqrt{\sum_{i=1}^n{(p_i - u_p)^2}} * \sqrt{\sum_{i=1}^n{(q_i - u_q)^2}}} R(p,q)=i=1n(piup)2 i=1n(qiuq)2 i=1n(piup)(qiuq)

皮尔逊相关度计算结果范围在-1和1之间,-1表示负相关,1表示正相关。皮尔逊相关度,其实计算的是两个随机变量是不是在同增同减。
由于皮尔逊相关度度量的是两个变量的变化趋势是否一致,所以不适合用作计算布尔向量之间的相关度。
还以上面的例子举例,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分,那么使用皮尔逊相关系数的公式计算两个用户之间的相关系数:
首先,我们需要计算用户A和用户B的评分均值:

用户A的评分均值: (1+2)/2 = 1.5
用户B的评分均值: (4+5)/2 = 4.5

然后,我们可以使用皮尔逊相关系数的公式计算两个用户之间的相关系数:

ρ A , B = ∑ i = 1 2 ( x i − 1.5 ) ( y i − 4.5 ) ∑ i = 1 2 ( x i − 1.5 ) 2 ∑ i = 1 2 ( y i − 4.5 ) 2 \rho_{A,B} = \frac{\sum_{i=1}^{2} (x_i - 1.5)(y_i - 4.5)}{\sqrt{\sum_{i=1}^{2} (x_i - 1.5)^2} \sqrt{\sum_{i=1}^{2} (y_i - 4.5)^2}} ρA,B=i=12(xi1.5)2 i=12(yi4.5)2 i=12(xi1.5)(yi4.5)

将用户A和用户B的评分代入公式中进行计算:

ρ A , B = 1 \rho_{A,B} = 1 ρA,B=1

因此,通过计算,用户A和用户B之间的皮尔逊相关系数为1,这表示它们之间存在完全的正相关关系。

4 、杰卡德(Jaccard)相似度

杰尔德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰尔德相似度简直就是为布尔值向量私人定做的。对应的计算公式是:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A ∩ B|}{|A ∪ B|} J(A,B)=ABAB

1、分子是两个布尔向量做点积计算,得到的就是交集元素个数;
2、分母是两个布尔向量做或运算,再求元素和。

余弦相似度适用于评分数据,杰尔德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰尔德相似度就适合来承担这个任务。

总结

今天,我介绍了常用的几种相似度计算方法,以及其各自的使用场景。

这里的场景是按数据形式划分的,按照向量维度取值是否是布尔值来看,杰卡德相似度就只适合布尔值向量,余弦相似度弹性略大,适合两种向量。欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;是绝对差异,余弦相似度度量的是方向差异,但是调整的余弦相似度则可以避免这个弱点。

在这里插入图片描述

这篇关于推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055808

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

SpringIntegration消息路由之Router的条件路由与过滤功能

《SpringIntegration消息路由之Router的条件路由与过滤功能》本文详细介绍了Router的基础概念、条件路由实现、基于消息头的路由、动态路由与路由表、消息过滤与选择性路由以及错误处理... 目录引言一、Router基础概念二、条件路由实现三、基于消息头的路由四、动态路由与路由表五、消息过滤

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

java streamfilter list 过滤的实现

《javastreamfilterlist过滤的实现》JavaStreamAPI中的filter方法是过滤List集合中元素的一个强大工具,可以轻松地根据自定义条件筛选出符合要求的元素,本文就来... 目录1. 创建一个示例List2. 使用Stream的filter方法进行过滤3. 自定义过滤条件1. 定

Redis如何实现刷票过滤

《Redis如何实现刷票过滤》:本文主要介绍Redis如何实现刷票过滤问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录引言一、概述二、技术选型三、搭建开发环境四、使用Redis存储数据四、使用SpringBoot开发应用五、 实现同一IP每天刷票不得超过次数六

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言