论文 | 翻译 ——A Novel K-medoids clustering recommendation algorithm……(2019:协同过滤RS)

本文主要是介绍论文 | 翻译 ——A Novel K-medoids clustering recommendation algorithm……(2019:协同过滤RS),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录 <SCI 2>

0.专有词汇

0.Abstract

1.Introduction

2.Literature overview

2.1.Similarity measure

2.2.Clustering technique

3.Research framework

3.1.Item similarity based on KL divergence

3.2.A novel K-medoids clustering algorithm based on probability distribution

3.2.1.K cluster centers selection algorithm based on KL distance

3.2.2.Item clustering algorithm

3.3.Top-n recommendation

3.3.1.Selection of nearest neighbor set

3.3.2.Online top-n recommendation

4.The experiments

4.1.Experimental dataset

4.2.Evaluation indicator

4.3.Experimental result and analysis

4.3.1.ML-Latest-Small dataset

4.3.2.Yahoo Music dataset

 4.4.Kolmogorov–Smirnov test

4.5.Comparison analysis

5.Conclusion and further work


0.专有词汇

probalility distribution:概率分布                 Kullback–Leibler (KL) divergence:KL散度

asymmetric relationship :非对称关系         geometric distance:几何关系

mean squared difference:均方差                heuristic:启发式的

Bhattacharyya coefficient:巴氏系数           empirical cumulative distributions:经验累积分布

treatment group : 实验组                              control group:对照组

0.Abstract

1.Introduction

【论述过程】

①研究背景:信息过载 → ②解决办法:信息过滤(推荐系统) → ③ 聚类推荐算法运作过程和优点论述 → ④确定文章研究框架:聚类推荐算法 → ⑤前人研究表明:距离计算公式重要性程度高 → ⑥提出问题:现有距离计算公式在稀疏矩阵上表现不好 → ⑦确定文章研究方向

【聚类推荐的运作过程】

①聚类中心选择算法确定聚类中心

②计算各对象到聚类中心的相似度,并划分,最终确定最近邻用户

③预测未知评分,生成推荐列表

【研究创新点】

①传统聚类推荐算法相似度(距离)计算公式仅考虑共有评分值:KL散度(距离)计算方法

②传统聚类推荐算法相似度(距离)计算公式对重叠对象的划分敏感度较低:KL散度(距离)的最大贡献度

③传统聚类推荐算法对象间相似度计算是对称的,含有不同评分数量的对象影响应不同:算法强调对象间非对称关系

2.Literature overview

【论述过程】

①定义CF模型空间 → ② 指出评分矩阵稀疏问题 → ③相似度计算方法 → ④聚类技术

2.1.Similarity measure

【论述过程】

①传统相似度计算方法 → ②新背景下存在问题:数据稀疏、冷启动和覆盖范围有限 →③提出新相似度测量方法 →④引出文章研究内容:KL散度的优化

2.2.Clustering technique

【论述过程】

①从聚类算法分类引出K-means →②K-means主要问题:对离群点和噪声敏感 →③引出k-means改进算法K-medoids →④K-mediods算法存在问题:几何距离很难对重叠对象进行分类 →⑤引出文章研究内容:以K-mediods为基础寻找新的距离计算方法

3.Research framework

【论述过程】

①给出新聚类推荐算法的框架并粗略解释框架流程

②KL散度(距离/相似度)公式原理说明

③商品聚类算法说明

④Top-N推荐

【框架流程】

①首先使用基于KL散度公式来计算项目之间的相似度

②基于KL散度中心选择算法确定k个聚类中心,并且相似项被聚类到同一类中

③找到类中目标项的最近邻,以计算活动用户对未分级项的预测等级,按预测分值的大小生成推荐列表

3.1.Item similarity based on KL divergence

【论述过程】

①KL散度(距离)定义(item i, item j)

②公式问题:尽管充分利用了评分信息(评价过该商品的用户数量),但忽略了商品评分的数量

 ③添加调节因子λ → ④改进KL散度(距离/相似度) → ⑤KL散度(距离/相似度)的其他性质:非负性 / 非对称性 

  • 非对称性解释:D'(i)≠D'(j),商品i的最近邻为j,但j的最近邻不一定为i

3.2.A novel K-medoids clustering algorithm based on probability distribution

【论述过程】

①目的:提升K-medoids聚类算法的效率和聚类结果,基于“改进的KL散度(距离/相似度)”对其进行改进 → KL-KM

②KL-KM算法步骤:1)找出k个聚类中心        →  基于KL散度的聚类中心选择算法

                               2)迭代生成聚类结果      →  商品聚类算法

3.2.1.K cluster centers selection algorithm based on KL distance

【基于KL散度的聚类中心选择算法的步骤】 共k个聚类中心

①依据“KL散度(距离/相似度)和”确定第一个聚类中心C1

 ②依据公式(4)迭代确定剩余k-1个聚类中心

③算法实现:

 

3.2.2.Item clustering algorithm

分别计算商品j∈N\{C}到各聚类中心的KL散度(距离/相似度)值,并将其划分到最小散度值对应的聚类中。

3.3.Top-n recommendation

【论述过程】

①最近邻域的选择

②在线Top-n推荐

3.3.1.Selection of nearest neighbor set

【邻域选择规则】

分别计算待预测评分的商品i所在簇Ci中其他商品到该商品的KL散度,并将计算结果升序排列,选取前n个作为商品i的邻域

3.3.2.Online top-n recommendation

【论述过程】

借助待预测评分商品的邻域计算评分,并按照评分高低进行推荐

4.The experiments

【论述过程】

①实验数据说明

②评价指标介绍

③实验结果及分析(分块实验对比)

④Kolmogorov–Smirnov检验

⑤比较分析(总体实验对比)

4.1.Experimental dataset

MovieLens 和 Yahoo Music

4.2.Evaluation indicator

评价指标分为两类:预测准确性+推荐准确性

①预测准确性:平均绝对误差(MAE)和均方根误差(RMSE)

②推荐准确性:精度(Precision)、召回率(Recall)和F1系数(F1-value)

4.3.Experimental result and analysis

【论述过程】

①说明聚类数k对推荐准确性和算法表现影响很大 → ②指明评价指标:Section 4.2 → ③指明对照算法:Pearson correlation based CF、new heuristic similarity model、ombining Jaccard and MSD、Bhattacharyya Coefficient based CF。

4.3.1.ML-Latest-Small dataset

【论述过程】

①聚类数k对结果的影响(图三)

②最近邻域大小对结果的影响(图四)

 

 

4.3.2.Yahoo Music dataset

论述过程同4.3.1,只不过实验数据集不同

 

 

 4.4.Kolmogorov–Smirnov test

Kolmogorov-Smirnov检验(KS检验)是一种一维概率分布均匀性的非参数检验;它可以用来比较一个样本与一个参考概率分布,或评价两个样本。双样本KS检验是比较两个样本最有用的方法之一,因为它对两个样本的经验累积分布的位置和形状的差异都很敏感。(KS检验原理

【双样本KS测试过程】

①每个用户的预测评分作为实验组,真实评分作为对照组

②组中的每对评分在显著性水平α=0.05下进行KS检验

③最后,使用累积测试值q作为命中数来统计KS测试的结果。

4.5.Comparison analysis

【论述过程】(总体实验对比)

①对照算法选择:分块对照实验算法+2.2节综述中聚类算法

②实验数据集:ML-100k

③实验结果分析

5.Conclusion and further work

 

这篇关于论文 | 翻译 ——A Novel K-medoids clustering recommendation algorithm……(2019:协同过滤RS)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/193943

相关文章

SpringIntegration消息路由之Router的条件路由与过滤功能

《SpringIntegration消息路由之Router的条件路由与过滤功能》本文详细介绍了Router的基础概念、条件路由实现、基于消息头的路由、动态路由与路由表、消息过滤与选择性路由以及错误处理... 目录引言一、Router基础概念二、条件路由实现三、基于消息头的路由四、动态路由与路由表五、消息过滤

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

java streamfilter list 过滤的实现

《javastreamfilterlist过滤的实现》JavaStreamAPI中的filter方法是过滤List集合中元素的一个强大工具,可以轻松地根据自定义条件筛选出符合要求的元素,本文就来... 目录1. 创建一个示例List2. 使用Stream的filter方法进行过滤3. 自定义过滤条件1. 定

Redis如何实现刷票过滤

《Redis如何实现刷票过滤》:本文主要介绍Redis如何实现刷票过滤问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录引言一、概述二、技术选型三、搭建开发环境四、使用Redis存储数据四、使用SpringBoot开发应用五、 实现同一IP每天刷票不得超过次数六

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

BUUCTF靶场[web][极客大挑战 2019]Http、[HCTF 2018]admin

目录   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 [web][HCTF 2018]admin 考点:弱密码字典爆破 四种方法:   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 访问环境 老规矩,我们先查看源代码

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快