操心没小课堂第一节 协同过滤算法

2024-09-01 17:36

本文主要是介绍操心没小课堂第一节 协同过滤算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

协同过滤算法

协同过滤算法(Collaborative Filtering)是推荐系统中一种广泛应用的技术,它主要依赖于用户的行为数据来预测用户可能感兴趣的内容。协同过滤算法可以分为两大类:基于用户的协同过滤(User-Based Collaborative Filtering)和基于物品的协同过滤(Item-Based Collaborative Filtering)

1.基于用户的协同过滤(UserCF)

这种类型的协同过滤算法寻找具有相似兴趣爱好的用户群组,并根据这些用户喜欢的内容来向目标用户推荐。具体步骤如下:

  1. 数据收集:收集用户对物品的评分或行为数据(如点击、购买、收藏等)。
  2. 相似用户发现:通过一定的相似度计算方法(如皮尔逊相关系数、余弦相似度等)找出与目标用户兴趣相似的用户。
  3. 推荐生成:根据相似用户的喜好,向目标用户推荐他们还没有接触过但可能会感兴趣的物品 

 2.基于物品的协同过滤(ItemCF)

 基于物品的协同过滤算法则是通过分析用户对物品的评分或行为,来推断物品之间的相似性,并根据用户已知的兴趣向其推荐类似的物品。具体步骤如下:

  1. 数据收集:同样需要收集用户对物品的评分或行为数据。
  2. 物品相似度计算:计算物品之间的相似度,常用的方法有余弦相似度、杰卡德相似系数等。
  3. 推荐生成:根据用户已有的评分或行为记录,找出用户喜欢的物品,并推荐与其相似的其他物品。

3.相似度计算放法

1.杰卡德相似度

2.余弦相似度(常用)

 局限性

 3.皮尔逊相关系数(余弦相似度升级版)

公式的话, 上面就是i的每一个元素减去平均值,j的每一个元素减去平均值然后相乘,分母的话是在求向量模长。

4.其他的相似度计算方法

 

 欧式距离(Euclidean Distance)是一种度量两个点在多维空间中距离的方法。它是直觉上最简单也是最常用的距离度量方式之一,基于欧几里得几何原理,即两点之间的直线距离。在数学上,欧式距离是两点间路径长度的最小值。

5.欧式距离和余弦相似度

4.实例 

1.基于用户的协同过滤(UserCF)

UserCF(User Collaborative Filtering,用户协同过滤)是一种推荐系统算法,广泛应用于个性化推荐领域。这种算法基于用户之间的相似度来进行推荐,通常用于解决“冷启动”问题较少的情况,即系统中已经有足够的用户行为数据。
UserCF 的基本原理
UserCF 的核心思想是找到与目标用户兴趣相似的其他用户,然后根据这些相似用户的喜好来推荐物品给目标用户。具体步骤如下:

  • 计算用户相似度:找到与目标用户兴趣相似的其他用户。
  • 推荐物品:根据相似用户的喜好来推荐物品给目标用户。

比如第一个人喜欢衣服裤子和帽子,第二个人也喜欢这三样,但是第二个人还喜欢鞋子,那第一个人就有可能也喜欢鞋子。

 例如

1.Alice与其他用户的相似度

2.根据相似度用户计算Alice对物品5的最终得分 
方式1

 

分母是Alice分别与两个用户的相似度之和,分子再乘上用户与物品5的评分。(如下)

方式2 

 

 

3.根据用户评分对用户进行推荐 

定一个阈值,超过即推荐给用户 

4.缺点 

计算成本高:
当用户数量庞大时,计算用户之间的相似度矩阵会变得非常耗时和资源密集。随着用户数量的增长,计算复杂度呈指数增长。
稀疏性问题:
如果用户对物品的评分或交互行为数据非常稀疏,那么很难找到具有足够相似性的用户。这会导致推荐质量下降。
推荐滞后:
UserCF推荐的结果依赖于用户相似度矩阵,而这个矩阵通常是预先计算好的。因此,当用户的行为发生变化时,推荐结果不能立即更新,导致推荐的实时性较差。
冷启动问题:
新加入系统的用户由于缺乏历史行为数据,难以找到与其相似的用户,从而导致推荐困难。
热门物品偏见:
UserCF倾向于推荐那些热门的物品,因为它更容易找到对这些物品有共同偏好的用户群。这可能导致长尾物品得不到推荐。
可扩展性问题:
随着系统的扩展,用户数量增加,维护用户相似度矩阵的成本也会增加,这使得UserCF在大规模系统中应用受限。
数据稀疏性:
在实际应用中,用户通常只会对少量物品进行评分或互动,这导致用户-物品评分矩阵非常稀疏,从而影响了用户相似度计算的准确性。
推荐多样性不足:
 由于推荐基于相似用户的历史行为,可能会导致推荐的多样性不足,用户可能会错过一些潜在的兴趣点。
实际工程应用中的挑战
在实际工程应用中,UserCF还面临着一些具体的挑战,比如:

  • 用户评分矩阵过大问题:随着用户数量的增加,用户评分矩阵变得非常庞大,存储和计算成本都会显著增加。
  • 推荐结果更新不及时:用户的新行为不会立即反映在推荐结果中,因为推荐结果通常是基于预计算的用户相似度矩阵。
5.适用场景

主要适用于用户少、物品多、时效性强的场景

 例如:企业内部的知识管理系统或小型社区平台,新闻网站、实时资讯推送服务,社交媒体平台上的动态推荐、短视频平台上的内容推荐(热搜)

2.基于Item的协同过滤算法(ItemCF)

优点

ItemCF更加适用于电商平台 

  • 计算效率高:物品相似度矩阵可以预先计算并存储,因此推荐时只需要查询相似度矩阵即可,计算成本较低。
  • 可扩展性好:物品相似度矩阵的计算可以并行化,适合大规模数据集。
  • 推荐稳定性好:物品相似度矩阵一旦计算完成,可以长时间使用,不需要频繁更新。
  • 冷启动问题缓解:对于新用户,可以基于已有用户的评分数据来推荐物品,缓解冷启动问题。
  • 推荐多样性:可以推荐多种类型的物品,避免热门物品偏见。
缺点 
  • 数据稀疏性问题:如果用户对物品的评分或行为数据非常稀疏,计算物品相似度的效果会受到影响。
  • 热门物品偏见:仍然可能倾向于推荐热门物品,因为热门物品更容易找到相似的物品。
  • 时效性问题:物品相似度矩阵需要定期更新,否则推荐结果可能滞后。 

这篇关于操心没小课堂第一节 协同过滤算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1127598

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

dp算法练习题【8】

不同二叉搜索树 96. 不同的二叉搜索树 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n = 3输出:5 示例 2: 输入:n = 1输出:1 class Solution {public int numTrees(int n) {int[] dp = new int