操心没小课堂第一节 协同过滤算法

2024-09-01 17:36

本文主要是介绍操心没小课堂第一节 协同过滤算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

协同过滤算法

协同过滤算法(Collaborative Filtering)是推荐系统中一种广泛应用的技术,它主要依赖于用户的行为数据来预测用户可能感兴趣的内容。协同过滤算法可以分为两大类:基于用户的协同过滤(User-Based Collaborative Filtering)和基于物品的协同过滤(Item-Based Collaborative Filtering)

1.基于用户的协同过滤(UserCF)

这种类型的协同过滤算法寻找具有相似兴趣爱好的用户群组,并根据这些用户喜欢的内容来向目标用户推荐。具体步骤如下:

  1. 数据收集:收集用户对物品的评分或行为数据(如点击、购买、收藏等)。
  2. 相似用户发现:通过一定的相似度计算方法(如皮尔逊相关系数、余弦相似度等)找出与目标用户兴趣相似的用户。
  3. 推荐生成:根据相似用户的喜好,向目标用户推荐他们还没有接触过但可能会感兴趣的物品 

 2.基于物品的协同过滤(ItemCF)

 基于物品的协同过滤算法则是通过分析用户对物品的评分或行为,来推断物品之间的相似性,并根据用户已知的兴趣向其推荐类似的物品。具体步骤如下:

  1. 数据收集:同样需要收集用户对物品的评分或行为数据。
  2. 物品相似度计算:计算物品之间的相似度,常用的方法有余弦相似度、杰卡德相似系数等。
  3. 推荐生成:根据用户已有的评分或行为记录,找出用户喜欢的物品,并推荐与其相似的其他物品。

3.相似度计算放法

1.杰卡德相似度

2.余弦相似度(常用)

 局限性

 3.皮尔逊相关系数(余弦相似度升级版)

公式的话, 上面就是i的每一个元素减去平均值,j的每一个元素减去平均值然后相乘,分母的话是在求向量模长。

4.其他的相似度计算方法

 

 欧式距离(Euclidean Distance)是一种度量两个点在多维空间中距离的方法。它是直觉上最简单也是最常用的距离度量方式之一,基于欧几里得几何原理,即两点之间的直线距离。在数学上,欧式距离是两点间路径长度的最小值。

5.欧式距离和余弦相似度

4.实例 

1.基于用户的协同过滤(UserCF)

UserCF(User Collaborative Filtering,用户协同过滤)是一种推荐系统算法,广泛应用于个性化推荐领域。这种算法基于用户之间的相似度来进行推荐,通常用于解决“冷启动”问题较少的情况,即系统中已经有足够的用户行为数据。
UserCF 的基本原理
UserCF 的核心思想是找到与目标用户兴趣相似的其他用户,然后根据这些相似用户的喜好来推荐物品给目标用户。具体步骤如下:

  • 计算用户相似度:找到与目标用户兴趣相似的其他用户。
  • 推荐物品:根据相似用户的喜好来推荐物品给目标用户。

比如第一个人喜欢衣服裤子和帽子,第二个人也喜欢这三样,但是第二个人还喜欢鞋子,那第一个人就有可能也喜欢鞋子。

 例如

1.Alice与其他用户的相似度

2.根据相似度用户计算Alice对物品5的最终得分 
方式1

 

分母是Alice分别与两个用户的相似度之和,分子再乘上用户与物品5的评分。(如下)

方式2 

 

 

3.根据用户评分对用户进行推荐 

定一个阈值,超过即推荐给用户 

4.缺点 

计算成本高:
当用户数量庞大时,计算用户之间的相似度矩阵会变得非常耗时和资源密集。随着用户数量的增长,计算复杂度呈指数增长。
稀疏性问题:
如果用户对物品的评分或交互行为数据非常稀疏,那么很难找到具有足够相似性的用户。这会导致推荐质量下降。
推荐滞后:
UserCF推荐的结果依赖于用户相似度矩阵,而这个矩阵通常是预先计算好的。因此,当用户的行为发生变化时,推荐结果不能立即更新,导致推荐的实时性较差。
冷启动问题:
新加入系统的用户由于缺乏历史行为数据,难以找到与其相似的用户,从而导致推荐困难。
热门物品偏见:
UserCF倾向于推荐那些热门的物品,因为它更容易找到对这些物品有共同偏好的用户群。这可能导致长尾物品得不到推荐。
可扩展性问题:
随着系统的扩展,用户数量增加,维护用户相似度矩阵的成本也会增加,这使得UserCF在大规模系统中应用受限。
数据稀疏性:
在实际应用中,用户通常只会对少量物品进行评分或互动,这导致用户-物品评分矩阵非常稀疏,从而影响了用户相似度计算的准确性。
推荐多样性不足:
 由于推荐基于相似用户的历史行为,可能会导致推荐的多样性不足,用户可能会错过一些潜在的兴趣点。
实际工程应用中的挑战
在实际工程应用中,UserCF还面临着一些具体的挑战,比如:

  • 用户评分矩阵过大问题:随着用户数量的增加,用户评分矩阵变得非常庞大,存储和计算成本都会显著增加。
  • 推荐结果更新不及时:用户的新行为不会立即反映在推荐结果中,因为推荐结果通常是基于预计算的用户相似度矩阵。
5.适用场景

主要适用于用户少、物品多、时效性强的场景

 例如:企业内部的知识管理系统或小型社区平台,新闻网站、实时资讯推送服务,社交媒体平台上的动态推荐、短视频平台上的内容推荐(热搜)

2.基于Item的协同过滤算法(ItemCF)

优点

ItemCF更加适用于电商平台 

  • 计算效率高:物品相似度矩阵可以预先计算并存储,因此推荐时只需要查询相似度矩阵即可,计算成本较低。
  • 可扩展性好:物品相似度矩阵的计算可以并行化,适合大规模数据集。
  • 推荐稳定性好:物品相似度矩阵一旦计算完成,可以长时间使用,不需要频繁更新。
  • 冷启动问题缓解:对于新用户,可以基于已有用户的评分数据来推荐物品,缓解冷启动问题。
  • 推荐多样性:可以推荐多种类型的物品,避免热门物品偏见。
缺点 
  • 数据稀疏性问题:如果用户对物品的评分或行为数据非常稀疏,计算物品相似度的效果会受到影响。
  • 热门物品偏见:仍然可能倾向于推荐热门物品,因为热门物品更容易找到相似的物品。
  • 时效性问题:物品相似度矩阵需要定期更新,否则推荐结果可能滞后。 

这篇关于操心没小课堂第一节 协同过滤算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1127598

相关文章

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringIntegration消息路由之Router的条件路由与过滤功能

《SpringIntegration消息路由之Router的条件路由与过滤功能》本文详细介绍了Router的基础概念、条件路由实现、基于消息头的路由、动态路由与路由表、消息过滤与选择性路由以及错误处理... 目录引言一、Router基础概念二、条件路由实现三、基于消息头的路由四、动态路由与路由表五、消息过滤

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

java streamfilter list 过滤的实现

《javastreamfilterlist过滤的实现》JavaStreamAPI中的filter方法是过滤List集合中元素的一个强大工具,可以轻松地根据自定义条件筛选出符合要求的元素,本文就来... 目录1. 创建一个示例List2. 使用Stream的filter方法进行过滤3. 自定义过滤条件1. 定

Redis如何实现刷票过滤

《Redis如何实现刷票过滤》:本文主要介绍Redis如何实现刷票过滤问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录引言一、概述二、技术选型三、搭建开发环境四、使用Redis存储数据四、使用SpringBoot开发应用五、 实现同一IP每天刷票不得超过次数六

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为