Python推荐系统学习笔记(6)基于协同过滤的个性化推荐算法实战---Surprise库实现ItemCF

本文主要是介绍Python推荐系统学习笔记(6)基于协同过滤的个性化推荐算法实战---Surprise库实现ItemCF,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、Surprise库简介

      Surprise是一个用于简单快速构建推荐系统的Python库,其底层基于Python Scikit 构建。

      官方文档地址:https://surprise.readthedocs.io/en/stable

      安装方式:(1)通过pip安装,需具有Microsoft C++ Build Tools 环境。

                        (2)通过conda安装,使用miniconda或者anaconda。

      Surprise库由于追求简易性导致其过于封装,因此个人认为相比学术界,其更适用于工业界。

二、Surprise库快速入门:

       编写目标:根据MovieLens数据,计算各电影间的相似度,找寻与ToyStory相似的电影进行推荐。

1、模块准备:

import os
import io
from surprise import KNNBaseline
from surprise import Dataset

2、数据准备过程:

    编写代码:

#载入数据(此处是在线数据,也可设定自定义数据)并设定训练集
data = Dataset.load_builtin('ml-100k')
trainset = data.build_full_trainset()
#相似度计算设定,使用皮尔逊相似度计算法,使用ItemCF的相似度计算
sim_options = {'name': 'pearson_baseline', 'user_based': False}
#使用KNNBaseline算法(一种CF算法)进行推荐系统构建
algo = KNNBaseline(sim_options=sim_options)
algo.train(trainset)
#获得电影名称信息数据
rid_to_name, name_to_rid = read_item_names()

      Surprise提供在线的MovieLens测试数据供使用,运行代码会有下载提示:

      开发者也可以自己定义数据匹配使用(详细内容见官方文档,本文省略)

3、read_item_names()函数:用于读取电影信息数据:

#读取物品(电影)名称信息
def read_item_names():file_name = ('E:/ml-100k/u.item') #该文件可从上步在线下载的数据中获取到rid_to_name = {}name_to_rid = {}#读取并解码数据,将结构化数据返回with io.open(file_name, 'r', encoding='ISO-8859-1') as f:for line in f:line = line.split('|')#建立两种dict#key是电影id,value是电影名rid_to_name[line[0]] = line[1]#key是电影名,value是电影idname_to_rid[line[1]] = line[0] return rid_to_name, name_to_rid

4、这里引入了两个概念,实际电影ID(来自数据的行,raw_id)和内部电影ID(inner_id,iid),可通过以下代码对两种ID进行测试:

#获得Toy Story电影的电影ID
toy_story_raw_id = name_to_rid['Toy Story (1995)']
print(toy_story_raw_id)
#通过Toy Story电影的电影ID获取该电影的推荐内部id
toy_story_inner_id = algo.trainset.to_inner_iid(toy_story_raw_id)
print(toy_story_inner_id)

5、输出推荐结果:

#获得Toy Story电影的相似(邻居)电影的ID集合
toy_story_neighbors = algo.get_neighbors(toy_story_inner_id, k=10)#根据相似电影的内部电影ID获得实际电影ID
toy_story_neighbors = (algo.trainset.to_raw_iid(inner_id)for inner_id in toy_story_neighbors)
#根据相似电影的实际电影ID获得实际电影名称
toy_story_neighbors = (rid_to_name[rid]for rid in toy_story_neighbors)
#输出推荐结果
print("与《Toy Story》最相似的10个电影是:")
for movie in toy_story_neighbors:print(movie)

结果:

这篇关于Python推荐系统学习笔记(6)基于协同过滤的个性化推荐算法实战---Surprise库实现ItemCF的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593594

相关文章

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

Golang中map缩容的实现

《Golang中map缩容的实现》本文主要介绍了Go语言中map的扩缩容机制,包括grow和hashGrow方法的处理,具有一定的参考价值,感兴趣的可以了解一下... 目录基本分析带来的隐患为什么不支持缩容基本分析在 Go 底层源码 src/runtime/map.go 中,扩缩容的处理方法是 grow

Go 1.23中Timer无buffer的实现方式详解

《Go1.23中Timer无buffer的实现方式详解》在Go1.23中,Timer的实现通常是通过time包提供的time.Timer类型来实现的,本文主要介绍了Go1.23中Timer无buff... 目录Timer 的基本实现无缓冲区的实现自定义无缓冲 Timer 实现更复杂的 Timer 实现总结在

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

Vue中动态权限到按钮的完整实现方案详解

《Vue中动态权限到按钮的完整实现方案详解》这篇文章主要为大家详细介绍了Vue如何在现有方案的基础上加入对路由的增、删、改、查权限控制,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、数据库设计扩展1.1 修改路由表(routes)1.2 修改角色与路由权限表(role_routes)二、后端接口设计

浅析Python中的绝对导入与相对导入

《浅析Python中的绝对导入与相对导入》这篇文章主要为大家详细介绍了Python中的绝对导入与相对导入的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1 Imports快速介绍2 import语句的语法2.1 基本使用2.2 导入声明的样式3 绝对import和相对i

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Qt实现发送HTTP请求的示例详解

《Qt实现发送HTTP请求的示例详解》这篇文章主要为大家详细介绍了如何通过Qt实现发送HTTP请求,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、添加network模块2、包含改头文件3、创建网络访问管理器4、创建接口5、创建网络请求对象6、创建一个回复对

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

C++实现回文串判断的两种高效方法

《C++实现回文串判断的两种高效方法》文章介绍了两种判断回文串的方法:解法一通过创建新字符串来处理,解法二在原字符串上直接筛选判断,两种方法都使用了双指针法,文中通过代码示例讲解的非常详细,需要的朋友... 目录一、问题描述示例二、解法一:将字母数字连接到新的 string思路代码实现代码解释复杂度分析三、