推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?

本文主要是介绍推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 相似度的本质
  • 相似度的计算方法:
    • 1、欧式距离
    • 2、余弦相似度
    • 3、皮尔逊相关度
    • 4 、杰卡德(Jaccard)相似度
  • 总结

相似度的本质

推荐系统中,推荐算法分为两个门派,一个是机器学习派,一个是相似度门派。机器学习派是后起之秀,而相似度门派则是泰山北斗。
近邻推荐,近邻并不一定只是在三维空间下的地理位置的近邻,也可以是高维空间的近邻。

近邻推荐的核心就是相似度计算方法的选择,由于近邻推荐并没有采用最优化思路,所以效果通常取决于矩阵的量化方式和相似度的选择。

相似度,与之相对应的一个概念是距离,两者都可以用来度量两个物体在高维空间中的亲疏关系。

推荐系统中的相似度门派,实际上有这么一个潜在假设:如果两个物体很相似,也就是距离很近,那么这两个物体就很容易产生一样的动作。

在近邻推荐中,最常用的相似度是余弦相似度,除了余弦相似度,还有欧式距离,皮尔逊相关度,自适应余弦相似度,局部敏感哈希等,使用场景各有不同,今天,我会分别一一介绍。

相似度的计算方法:

数据分类
相似度计算对象是向量,或者叫做高维空间下的坐标。那表示这个向量的数值就有两只能够:
1、实数值;
2、布尔值,也就是0或1;

下面介绍的不同计算方法适用于不同的数据种类。

1、欧式距离

欧氏距离,是一个欧式空间下度量距离的方法。两个物体,都在同一空间下表示为两个点,假如叫做p和q,分别都是n个坐标。那么欧式距离就是衡量这两个点之间的距离,欧式距离不适合布尔向量之间。
计算公式如下:
E ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 E(p,q) = \sqrt {\sum_{i=1}^n{(p_i - q_i)^2}} E(p,q)=i=1n(piqi)2

这个公式就是:每个坐标上的值相减,求平方和,最后输出方根。
显然,欧式距离得到的值是一个非负数,通常相似度计算度量结果希望是[-1,1]或者[0,1]之间,所以欧式距离无法直接应用到这种场景下,需要转换,最常用的转换公式如下:

1 1 + E ( p , q ) \frac{1}{1+ E(p,q)} 1+E(p,q)1
距离加一后取倒数。这个公式能够把范围为0到正无穷的欧式距离转换为0到1的相似度。
欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;

2、余弦相似度

余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。当两个向量的夹角为0度时,余弦值为1,当夹角为90度时,余弦值为0,当夹角为180度时,余弦值为-1。

余弦相似度在度量文本相似度,用户相似度、物品相似度的时候都比较常用;但是需要注意的是,余弦相似度的特点:它与向量的长度无关。因此,余弦相似度计算时需要对向量长度做归一化;
c o s ( p , q ) = ∑ i = 1 n p i ∗ q i ∑ i = 1 n p i 2 ∗ ∑ i = 1 n q i 2 cos(p,q) = \frac{\sum_{i=1}^n{p_i * q_i}}{\sqrt{\sum_{i=1}^n{p_i}^2 } * \sqrt{\sum_{i=1}^n{q_i}^2 }} cos(p,q)=i=1npi2 i=1nqi2 i=1npiqi

经过向量长度归一化后的相似度量方式,背后隐藏着这样一种思想:两个向量,只要方向一致,无论程度强弱,都可以视为相似。

在协同过滤中,如果选择余弦相似度,某种程度上更加依赖两个物品的共同评价用户数,而不是用户给与的评分多少。这是由于余弦相似度被向量长度归一化后的结果。

余弦相似度对绝对绝对值大小不敏感这件事,在某些应用上仍然有些问题。

举个例子,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分。用余弦相似度计算出来,两个用户的相似度达到0.98.这显然与实际不符,用户A明显不喜欢这两部电影。

用户电影1电影2
用户A12
用户B45

计算用户A和用户B的余弦相似度:
c o s ( A , B ) = 1 ∗ 4 + 2 ∗ 5 1 2 + 2 2 ∗ 4 2 + 5 2 = 14 205 ≈ 0.98 cos(A,B) =\frac{1*4+ 2*5}{ \sqrt{1^2+2^2} * \sqrt{4^2+5^2}} = \frac{14}{\sqrt{205}}≈0.98 cos(A,B)=12+22 42+52 14+25=205 140.98

针对这个问题,对余弦相似度有个改进,改进的算法叫做调整的余弦相似度(Adjusted Cosine Similarity)。调整的方法很简单,就是先计算向量每个维度上的均值,然后每个向量在各个维度上都减去均值后,再计算余弦相似度。
电影1平均分为:(1+4)/2 =2.5; 电影2平均分为:(2+5)/2 =3.5;

c o s ( A , B ) = ( 1 − 2.5 ) ∗ ( 4 − 2.5 ) + ( 2 − 3.5 ) ∗ ( 5 − 3.5 ) ( 1 − 2.5 ) 2 + ( 2 − 3.5 ) 2 ∗ ( 4 − 2.5 ) 2 + ( 5 − 3.5 ) 2 = − 4.5 4.5 = − 1 cos(A,B) =\frac{(1-2.5)*(4-2.5)+ (2-3.5)*(5-3.5)}{ \sqrt{(1-2.5)^2+(2-3.5)^2} * \sqrt{(4-2.5)^2+(5-3.5)^2}} = \frac{-4.5}{\sqrt{4.5}}=-1 cos(A,B)=(12.5)2+(23.5)2 (42.5)2+(53.5)2 (12.5)(42.5)+(23.5)(53.5)=4.5 4.5=1

用调整后的余弦相似度计算得到的相似度是-1,呈现出两个用户口味相反,和直觉相符。

3、皮尔逊相关度

皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和向量q各自减去向量的均值后,再计算余弦相似度。
R ( p , q ) = ∑ i = 1 n ( p i − u p ) ∗ ( q i − u q ) ∑ i = 1 n ( p i − u p ) 2 ∗ ∑ i = 1 n ( q i − u q ) 2 R(p,q) = \frac{\sum_{i=1}^n{(p_i - u_p) *(q_i -u_q)}}{\sqrt{\sum_{i=1}^n{(p_i - u_p)^2}} * \sqrt{\sum_{i=1}^n{(q_i - u_q)^2}}} R(p,q)=i=1n(piup)2 i=1n(qiuq)2 i=1n(piup)(qiuq)

皮尔逊相关度计算结果范围在-1和1之间,-1表示负相关,1表示正相关。皮尔逊相关度,其实计算的是两个随机变量是不是在同增同减。
由于皮尔逊相关度度量的是两个变量的变化趋势是否一致,所以不适合用作计算布尔向量之间的相关度。
还以上面的例子举例,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分,那么使用皮尔逊相关系数的公式计算两个用户之间的相关系数:
首先,我们需要计算用户A和用户B的评分均值:

用户A的评分均值: (1+2)/2 = 1.5
用户B的评分均值: (4+5)/2 = 4.5

然后,我们可以使用皮尔逊相关系数的公式计算两个用户之间的相关系数:

ρ A , B = ∑ i = 1 2 ( x i − 1.5 ) ( y i − 4.5 ) ∑ i = 1 2 ( x i − 1.5 ) 2 ∑ i = 1 2 ( y i − 4.5 ) 2 \rho_{A,B} = \frac{\sum_{i=1}^{2} (x_i - 1.5)(y_i - 4.5)}{\sqrt{\sum_{i=1}^{2} (x_i - 1.5)^2} \sqrt{\sum_{i=1}^{2} (y_i - 4.5)^2}} ρA,B=i=12(xi1.5)2 i=12(yi4.5)2 i=12(xi1.5)(yi4.5)

将用户A和用户B的评分代入公式中进行计算:

ρ A , B = 1 \rho_{A,B} = 1 ρA,B=1

因此,通过计算,用户A和用户B之间的皮尔逊相关系数为1,这表示它们之间存在完全的正相关关系。

4 、杰卡德(Jaccard)相似度

杰尔德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰尔德相似度简直就是为布尔值向量私人定做的。对应的计算公式是:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A ∩ B|}{|A ∪ B|} J(A,B)=ABAB

1、分子是两个布尔向量做点积计算,得到的就是交集元素个数;
2、分母是两个布尔向量做或运算,再求元素和。

余弦相似度适用于评分数据,杰尔德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰尔德相似度就适合来承担这个任务。

总结

今天,我介绍了常用的几种相似度计算方法,以及其各自的使用场景。

这里的场景是按数据形式划分的,按照向量维度取值是否是布尔值来看,杰卡德相似度就只适合布尔值向量,余弦相似度弹性略大,适合两种向量。欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;是绝对差异,余弦相似度度量的是方向差异,但是调整的余弦相似度则可以避免这个弱点。

在这里插入图片描述

这篇关于推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055808

相关文章

51单片机学习记录———定时器

文章目录 前言一、定时器介绍二、STC89C52定时器资源三、定时器框图四、定时器模式五、定时器相关寄存器六、定时器练习 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、定时器介绍 定时器介绍:51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 定时器作用: 1.用于计数系统,可

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

硬件基础知识——自学习梳理

计算机存储分为闪存和永久性存储。 硬盘(永久存储)主要分为机械磁盘和固态硬盘。 机械磁盘主要靠磁颗粒的正负极方向来存储0或1,且机械磁盘没有使用寿命。 固态硬盘就有使用寿命了,大概支持30w次的读写操作。 闪存使用的是电容进行存储,断电数据就没了。 器件之间传输bit数据在总线上是一个一个传输的,因为通过电压传输(电流不稳定),但是电压属于电势能,所以可以叠加互相干扰,这也就是硬盘,U盘