利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化

本文主要是介绍利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

1.订阅号推送一条图文消息时可一次性组合推送最多8篇文章,如下图,其中1篇头条和最多7篇次条。

2.在推送文章时,需要考虑到文章类型的多样性,因此,每天的推送排版,都要考虑不同的文章类型之间的契合性。要是陈列不当,次条的阅读量就很惨淡。当然,要是选择恰当,头条和次条就能相互促进,而且,头条一般都是确定的,主要是次条文章的挑选。

目的

那针对不同类型的头条文章,应该怎么罗列订阅号的“次条”比较好呢?或者,换句话说,读者可能会同时喜欢看什么类型的内容呢?

通过对用户阅读行为的关联分析,了解顾客的阅读习惯,找出强关联规则,从而为订阅号每日推文的组合提供参考。

获取数据

数据来源:公众号用户访问数据.csv

用户编号文章类别阅读数看一看点赞赞赏被转载访问日期
1数据分析2005112032406806012020/9/21
2数据分析116905841519462332020/9/17
3数据分析5720400572452282020/9/2
4数据分析2250211253150459002020/9/24
5数据分析112015601344894482020/9/8

......

98pandas7454521819292232020/9/20
98pandas7587379910221512020/9/20
99数据分析121798521217484872020/9/23
99pandas117155851288463512020/9/23
99matplotlib115426921269112302020/9/23


数据处理

1.读入数据,创建DataFrame对象

import pandas as pdfileinfo_df = pd.read_csv('./公众号用户访问数据.csv',encoding='gbk')

2.查看数据

fileinfo_df.describe()#查看数据集基本概况
fileinfo_df[fileinfo_df.duplicated()]#查看重复数据

describe结果:

duplicated结果:

由结果可见,无重复数据。

3.数据提取

#提取后续分析可能用到的数据列
extract_data_df = fileinfo_df[['用户编号','访问时间','文章类别']]

4.数据清洗

异常值/空值处理。

因刚已查看源文件数据中并不存在异常值和空值,所以此处跳过。

5.数据整理

但我们要分析的是用户所阅读过的文章类型,故在接下来的分析中,我们需要将同一用户在同一天阅读的相同文章类型进行合并为一条,故本次对提取后的数据,即extract_data_df进行数据去重即可。

首先,查看是否存在重复行数据

extract_data_df[extract_data_df.duplicate()]#查看重复数据

查看结果:

 

 存在重复行,需去重

extract_data_df = extract_data_df.drop_duplicates()#去除重复行

另外,为了后续方便分析,还需要将同一用户在同一天阅读的所有文章类型进行合并到一个列表当中。

#定义函数,将原“文章类型”数据转换为列表类型,便于数据合并 
def tran_list(data):if str(data)[0] == '[' :return datareturn [data]#将文章类别数据由字符串转换为列表
extract_data_df['文章类别'] = extract_data_df['文章类别'].agg(tran_list)#将同一用户在同一天内所阅读过的文章类别进行合并
extract_data_df = extract_data_df.groupby(['用户编号','访问日期']).sum()#查看合并后的数据,尾部10行
extract_data_df.tail(10)

合并后数据:

补充:若不事先对“文章类别”数据做列表类型转换的话,直接合并后的结果会是以下这样的,合并后数据无间隔,不利于后续分析使用。

分析

1.最小支持度设定

最小支持度的设定一般是根据业务经验来预设或调整,本次案例,考虑一个用户每月至少3次阅读,9月有30天,且总数据只有99条,那么,我们可以暂且将支持度设定为:3/30/99≈0.1

2.最小置信度设定

最小置信度同样也是需要根据经验来设定,本次我们先预设最小置信度为0,先观察产出的关联规则数量之后再做调整。

3.建模

#提取文章类型数据
extract_type_df = extract_data_df['文章类型']
#导入APR算法模块
from apyori import apriori as apr
#配置参数,最小支持度min_support=0.1 ,最小置信度min_confidence=0
results = apr.extract_type_df(extract_type_df,min_support = 0.1, min_confidence = 0)
#查看算法产出结果
for result in results:# 获取支持度,并保留3位小数support = round(result.support, 3)# 遍历ordered_statistics对象for rule in result.ordered_statistics:# 获取前件和后件并转成列表head_set = list(rule.items_base)tail_set = list(rule.items_add)# 跳过前件为空的数据if head_set == []:continue# 将前件、后件拼接成关联规则的形式related_catogory = str(head_set)+'→'+str(tail_set)# 提取置信度,并保留3位小数confidence = round(rule.confidence, 3)# 提取提升度,并保留3位小数lift = round(rule.lift, 3)# 查看强关联规则,支持度,置信度,提升度print(related_catogory, support, confidence, lift)

结果展示:

在使用默认最小置信度为0的情况下,我们一共筛选出了10 条关联规则。下一步,就要根据我们自己的实际情况,确定一个合适的最小置信度,选出强关联规则。

为此,我单独提取了这 10 条关联规则的置信度,并查看了它们的描述性统计信息,数值情况如下:

# 提取关联规则的置信度
confidences = [0.233, 1.0, 0.744, 0.395, 0.326, 0.452, 1.0, 0.222, 0.235, 0.613]
# 查看置信度的描述性统计信息
s = pd.Series(confidences).describe()

最小值为0.2,最大值为1.0,极值相差较大;另外,业务需求来讲,10条规则未免过多,实际只需要6条即可,故我们重新将最小置信度参数confidence调整为0.3 后再次进行关联规则的产出,并且将产出结果转换为DataFrame以支持度进行排序,便于后续分析:

# 执行Apriori 算法
results = apr(extract_type_df['文章类别'], min_support=0.1, min_confidence=0.3)
# 创建列表
extract_result = []for result in results:# 获取支持度,并保留3位小数support = round(result.support, 3)# 遍历ordered_statistics对象for rule in result.ordered_statistics:# 获取前件和后件并转成列表head_set = list(rule.items_base)tail_set = list(rule.items_add)# 跳过前件为空的数据if head_set == []:continue# 将前件、后件拼接成关联规则的形式related_catogory = str(head_set)+'→'+str(tail_set)# 提取置信度,并保留3位小数confidence = round(rule.confidence, 3)# 提取提升度,并保留3位小数lift = round(rule.lift, 3)# 将提取的数据保存到提取列表中extract_result.append([related_catogory, support, confidence, lift])
# 将数据转成 DataFrame 的形式
rules_data = pd.DataFrame(extract_result, columns=['关联规则', '支持度', '置信度', '提升度'])# 将数据按照“支持度”排序
sorted_by_support = rules_data.sort_values(by='支持度')
# 查看排序后的数据
sorted_by_support

产出结果为:

关系是促进还是抑制,关键是要看它们的提升度

本次筛选出来的强关联规则提升度大于 1(促进)和小于 1(抑制)的都有,但它们的指导作用是截然相反的,将数据分开来分析是一个明智的选择。

故将提升度>1的规则我们进行单独提取:

# 提取出提升度大于1的数据,并重置数据的索引
promoted_rules = sorted_by_support[sorted_by_support['提升度'] > 1].reset_index(drop=True)
promoted_rules

提取结果为:

由此可知,有促进作用的关联规则一共有 4 个,其中“爬虫”和“Python”互为促进关系,阅读“sql”文章的用户更有可能阅读“Python”文章,喜欢阅读“pandas”文章的读者大概率也会喜欢阅读“数据分析”。

数据可视化展现

1.关联规则的支持度与置信度,促进关系时(即提升度>1)的柱状图绘制

# 功能:绘制提升度大于 1 的强关联规则柱状图
#导入模块
import matplotlib.pyplot as plt
import warnings
# 设置画布尺寸
plt.figure(figsize=(20, 8))
# 设置横纵坐标以及柱子的宽度
width = 0.2
# 画出柱状图
plt.bar(promoted_rules.index-width/2, promoted_rules['支持度'], width=width)
plt.bar(promoted_rules.index+width/2, promoted_rules['置信度'], width=width)
# 设置图例
plt.legend(['支持度', '置信度'], fontsize=20)
# 设置标题
plt.title('促进关系的关联规则的支持度、置信度', fontsize=25)
# 设置刻度名称
plt.xticks(promoted_rules.index, promoted_rules['关联规则'], fontsize=15)
# 设置坐标轴标签
plt.xlabel('关联规则', fontsize=20)
plt.ylabel('数值', fontsize=20)

2.1.关联规则的支持度与置信度,抑制关系时(即提升度<1)的柱状图绘制

# 提取出提升度小于1的数据,并重置数据的索引
restricted_rules = sorted_by_support[sorted_by_support['提升度'] < 1].reset_index(drop=True)
restricted_rules
# 功能:绘制提升度小于 1 的强关联规则柱状图
# 设置画布尺寸
plt.figure(figsize=(20, 8))
# 画出柱状图
plt.bar(restricted_rules.index-width/2, restricted_rules['支持度'], width=width)
plt.bar(restricted_rules.index+width/2, restricted_rules['置信度'], width=width)
# 设置图例
plt.legend(['支持度', '置信度'], fontsize=20)
# 设置标题
plt.title('抑制关系的关联规则的支持度、置信度', fontsize=25)
# 设置刻度名称
plt.xticks(restricted_rules.index, restricted_rules['关联规则'], fontsize=15)
# 设置坐标轴标签
plt.xlabel('关联规则', fontsize=20)
plt.ylabel('数值', fontsize=20)

分析结论

基于这两份结果和公众号的排版需求,现在我们可以提出以下3条建议:

1)当“头条”文章是介绍有关“Sql”的内容时,不妨考虑搭配“python”的“次条”(置信度1,提升度1.04)。
2)当“爬虫”类文章成为“头条”时,可以提高“Python”(置信度0.452,提升度1.04)、降低“数据分析”的“次条”排布(置信度0.613,提升度0.749)。
3)阅读“pandas”的用户大概率也喜欢“数据分析”,可在文章末尾,添加“数据分析”相关的拓展链接,提升阅读量(置信度1,提升度1.222)。

这篇关于利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/405029

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

IDEA如何将String类型转json格式

《IDEA如何将String类型转json格式》在Java中,字符串字面量中的转义字符会被自动转换,但通过网络获取的字符串可能不会自动转换,为了解决IDEA无法识别JSON字符串的问题,可以在本地对字... 目录问题描述问题原因解决方案总结问题描述最近做项目需要使用Ai生成json,可生成String类型

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re