#####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度

本文主要是介绍#####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是Spark调研笔记的最后一篇,以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。

在推荐系统中,最经典的推荐算法无疑是协同过滤(Collaborative Filtering, CF),而item-cf又是CF算法中一个实现简单且效果不错的算法。
在item-cf算法中,最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台快速计算物品间的余弦相似度。
Cosine Similarity是相似度的一种常用度量,根据《推荐系统实践》一书第2.4.2节关于Item-CF算法部分的说明,其计算公式如下:

举个例子,若对item1有过行为的用户集合为{u1, u2, u3},对item2有过行为的用户集合为{u1, u3, u4, u5},则根据上面的式子,item1和item2间的相似度为2/(3*4),其中分子的2是因为item1的user_list与item2的user_list的交集长度为2,即item1和item2的共现(co-occurence)次数是2。

在工程实现上,根据论文"Empirical Analysis of Predictive Algorithms for Collaborative Filtering"的分析,为对活跃用户做惩罚,引入了IUF (Inverse User Frequency)的概念(与TF-IDF算法引入IDF的思路类似:活跃用户对物品相似度的贡献应该小于不活跃的用户),因此,对余弦相似度做改进后相似度计算公式如下:

可以看到,上式分子部分的1/log(1 + N(u))体现了对活跃用户的惩罚。

此外,通常认为用户在相隔很短的时间内喜欢的物品具有更高相似度。因此,工程实现上,还会考虑时间衰减效应。一种典型的时间衰减函数如下所示:

最终,时间上下文相关的Item-CF算法中的相似度计算公式如下:

上式中,分母部分与标准的相似度公式分母保持一致;分子部分参与运算的是item_i和item_j的共现用户集合,其中,f(t)是时间衰减效应的体现,N(u)对活跃用户做了惩罚。

下面的Python代码是计算物品相似度的Spark任务的代码片段(从HDFS加载用户历史行为日志,计算物品相似度,相似列表取TopN,将相似度计算结果写会HDFS),供大家参考:

[python]  view plain  copy
  1. #!/bin/env/python  
  2.   
  3.   
  4. import pyspark as ps  
  5. import math  
  6. import datetime as dt  
  7. import util  
  8.   
  9.   
  10. def generate_item_pair(x):  
  11.     """ 
  12.         Find co-occurence items of every given user  
  13.         Return a tuple in the format of ((item_0, item_1), cooccurrence_factor). 
  14.     """  
  15.     items = x[1]  
  16.     item_cnt = len(items)  
  17.     alpha = 1  
  18.     for i in items:  
  19.         item1 = i[0]  
  20.         ts1   = i[1]  
  21.         for j in items:  
  22.             item2 = j[0]  
  23.             ts2   = j[1]  
  24.             if item1 != item2:  
  25.                 ## introduce time decay and penalize active users  
  26.                 ft = 1.0 / (1 + alpha * abs(ts1 - ts2))  
  27.                 yield ((item1, item2), (ft / math.log(1 + item_cnt)))  
  28.   
  29.   
  30. def compute_item_similarity(x):  
  31.     items = x[0]  
  32.     cooccurrence = float(x[1])  
  33.     item_dict = g_item_freq_d   
  34.     norm_factor = 5  
  35.     if items[0in item_dict and items[1in item_dict:  
  36.         freq_0 = item_dict[items[0]]  
  37.         freq_1 = item_dict[items[1]]  
  38.         ## calculate similarity between the item pair  
  39.         sim = cooccurrence / math.sqrt(freq_0 * freq_1)  
  40.         ## normalize similarity  
  41.         norm_sim = (cooccurrence / (cooccurrence + norm_factor)) * sim  
  42.         yield (items[0], (items[1], norm_sim))  
  43.   
  44.   
  45. def sort_items(x):  
  46.     """ 
  47.         For a given item, sort all items similar to it as descent (using similarity scores), take topN similar items, and return as the following format: 
  48.         given_item \t sorted_item_0$sorted_score_0,sorted_item_1$sorted_score_1,... 
  49.     """  
  50.     similar_items = list(x[1])  
  51.     if len(similar_items) > 0:  
  52.         ## sort list of (item, score) tuple by score from high to low  
  53.         similar_items.sort(key=lambda x: x[1], reverse=True)  
  54.         ## format the list of sorted items as a string  
  55.         similar_items_str = ",".join(["$".join(map(str,item)) for item in similar_items[0:50]])  
  56.         yield "\t".join([str(x[0]), similar_items_str])  
  57.   
  58.   
  59. def main():  
  60.     base_hdfs_uri = "hdfs://to/user/behavior/log"  
  61.     today = dt.date.today()  
  62.     knn_similarity_file = '%s/%s/knn_sim' % (base_hdfs_uri, today.strftime('%Y%m%d'))  
  63.   
  64.     sc = ps.SparkContext()  
  65.   
  66.     ## load user behavior from hdfs log  
  67.     ## each element in user_item is a tuple: (user, (item, timestamp))  
  68.     history_s = (today - dt.timedelta(8)).strftime('%Y%m%d')  
  69.     history_e = (today - dt.timedelta(2)).strftime('%Y%m%d')  
  70.     input_files = util.get_input_files(action='play', start=history_s, end=history_e)  
  71.     user_item = sc.textFile(",".join(input_files))\  
  72.         .mapPartitions(util.parse_user_item) \  
  73.         .map(lambda x: (x[0], (x[1], x[2]))) \  
  74.         .distinct() \  
  75.         .cache()  
  76.   
  77.     ## compute item frequency and store as a global dict  
  78.     item_freq = user_item.map(lambda x: (x[1][0], 1)) \  
  79.         .reduceByKey(lambda x, y: x + y) \  
  80.         .collect()  
  81.     global g_item_freq_d  
  82.     g_item_freq_d = dict()  
  83.     for x in item_freq:  
  84.         g_item_freq_d[x[0]] = x[1]  
  85.      
  86.     ## compute item similarity and find top n most similar items    
  87.     item_pair_sim = user_item.groupByKey() \  
  88.         .flatMap(generate_item_pair) \  
  89.         .reduceByKey(lambda x, y: x + y) \  
  90.         .flatMap(compute_item_similarity) \  
  91.         .groupByKey() \  
  92.         .flatMap(sort_items) \  
  93.         .cache()  
  94.   
  95.     ## dump to hdfs  
  96.     item_pair_sim.repartition(1).saveAsTextFile(knn_similarity_file)  
  97.   
  98.   
  99. if __name__ == '__main__':  
  100.     main()  

上面的代码中,import util中引入的util只是负责从HDFS获取用户历史日志的文件名列表,非常简单,实现细节这里不赘述。

【参考资料】
1. wikipedia: Collaborative filtering
2. 推荐系统实践(项亮著)第2.4.2节: 基于物品的协同过滤算法
3. Paper: Empirical Analysis of Predictive Algorithms for Collaborative Filtering
4. 推荐系统实践(项亮著)第5.1.6节: 时间上下文相关的ItemCF算法
5.  Spark Programming Guide

========================== EOF ===========================

这篇关于#####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967700

相关文章

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

计算绕原点旋转某角度后的点的坐标

问题: A点(x, y)按顺时针旋转 theta 角度后点的坐标为A1点(x1,y1)  ,求x1 y1坐标用(x,y)和 theta 来表示 方法一: 设 OA 向量和x轴的角度为 alpha , 那么顺时针转过 theta后 ,OA1 向量和x轴的角度为 (alpha - theta) 。 使用圆的参数方程来表示点坐标。A的坐标可以表示为: \[\left\{ {\begin{ar

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

java中查看函数运行时间和cpu运行时间

android开发调查性能问题中有一个现象,函数的运行时间远低于cpu执行时间,因为函数运行期间线程可能包含等待操作。native层可以查看实际的cpu执行时间和函数执行时间。在java中如何实现? 借助AI得到了答案 import java.lang.management.ManagementFactory;import java.lang.management.Threa

React+TS前台项目实战(十七)-- 全局常用组件Dropdown封装

文章目录 前言Dropdown组件1. 功能分析2. 代码+详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲全局Dropdown组件封装,可根据UI设计师要求自定义修改。 Dropdown组件 1. 功能分析 (1)通过position属性,可以控制下拉选项的位置 (2)通过传入width属性, 可以自定义下拉选项的宽度 (3)通过传入classN

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用。如果你看不懂,请留言。 完整代码: <!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><ti

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

时间服务器中,适用于国内的 NTP 服务器地址,可用于时间同步或 Android 加速 GPS 定位

NTP 是什么?   NTP 是网络时间协议(Network Time Protocol),它用来同步网络设备【如计算机、手机】的时间的协议。 NTP 实现什么目的?   目的很简单,就是为了提供准确时间。因为我们的手表、设备等,经常会时间跑着跑着就有误差,或快或慢的少几秒,时间长了甚至误差过分钟。 NTP 服务器列表 最常见、熟知的就是 www.pool.ntp.org/zo

20170723 做的事 ecdsa的签名验证时间短于bls signature

1 今天在虚拟机 /home/smile/Desktop/20170610/Test//time_ecdsa 文件夹下,找到ecdsa的验证时间是 989.060606μs μs 先 make ,然后run。 再取BLS的签名生成时间: ./run  2  gnuplot 画图,画对比的时间 gnuplot 画图参考教程 http://blog.sciencen