利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化

本文主要是介绍利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

1.订阅号推送一条图文消息时可一次性组合推送最多8篇文章,如下图,其中1篇头条和最多7篇次条。

2.在推送文章时,需要考虑到文章类型的多样性,因此,每天的推送排版,都要考虑不同的文章类型之间的契合性。要是陈列不当,次条的阅读量就很惨淡。当然,要是选择恰当,头条和次条就能相互促进,而且,头条一般都是确定的,主要是次条文章的挑选。

目的

那针对不同类型的头条文章,应该怎么罗列订阅号的“次条”比较好呢?或者,换句话说,读者可能会同时喜欢看什么类型的内容呢?

通过对用户阅读行为的关联分析,了解顾客的阅读习惯,找出强关联规则,从而为订阅号每日推文的组合提供参考。

获取数据

数据来源:公众号用户访问数据.csv

用户编号文章类别阅读数看一看点赞赞赏被转载访问日期
1数据分析2005112032406806012020/9/21
2数据分析116905841519462332020/9/17
3数据分析5720400572452282020/9/2
4数据分析2250211253150459002020/9/24
5数据分析112015601344894482020/9/8

......

98pandas7454521819292232020/9/20
98pandas7587379910221512020/9/20
99数据分析121798521217484872020/9/23
99pandas117155851288463512020/9/23
99matplotlib115426921269112302020/9/23


数据处理

1.读入数据,创建DataFrame对象

import pandas as pdfileinfo_df = pd.read_csv('./公众号用户访问数据.csv',encoding='gbk')

2.查看数据

fileinfo_df.describe()#查看数据集基本概况
fileinfo_df[fileinfo_df.duplicated()]#查看重复数据

describe结果:

duplicated结果:

由结果可见,无重复数据。

3.数据提取

#提取后续分析可能用到的数据列
extract_data_df = fileinfo_df[['用户编号','访问时间','文章类别']]

4.数据清洗

异常值/空值处理。

因刚已查看源文件数据中并不存在异常值和空值,所以此处跳过。

5.数据整理

但我们要分析的是用户所阅读过的文章类型,故在接下来的分析中,我们需要将同一用户在同一天阅读的相同文章类型进行合并为一条,故本次对提取后的数据,即extract_data_df进行数据去重即可。

首先,查看是否存在重复行数据

extract_data_df[extract_data_df.duplicate()]#查看重复数据

查看结果:

 

 存在重复行,需去重

extract_data_df = extract_data_df.drop_duplicates()#去除重复行

另外,为了后续方便分析,还需要将同一用户在同一天阅读的所有文章类型进行合并到一个列表当中。

#定义函数,将原“文章类型”数据转换为列表类型,便于数据合并 
def tran_list(data):if str(data)[0] == '[' :return datareturn [data]#将文章类别数据由字符串转换为列表
extract_data_df['文章类别'] = extract_data_df['文章类别'].agg(tran_list)#将同一用户在同一天内所阅读过的文章类别进行合并
extract_data_df = extract_data_df.groupby(['用户编号','访问日期']).sum()#查看合并后的数据,尾部10行
extract_data_df.tail(10)

合并后数据:

补充:若不事先对“文章类别”数据做列表类型转换的话,直接合并后的结果会是以下这样的,合并后数据无间隔,不利于后续分析使用。

分析

1.最小支持度设定

最小支持度的设定一般是根据业务经验来预设或调整,本次案例,考虑一个用户每月至少3次阅读,9月有30天,且总数据只有99条,那么,我们可以暂且将支持度设定为:3/30/99≈0.1

2.最小置信度设定

最小置信度同样也是需要根据经验来设定,本次我们先预设最小置信度为0,先观察产出的关联规则数量之后再做调整。

3.建模

#提取文章类型数据
extract_type_df = extract_data_df['文章类型']
#导入APR算法模块
from apyori import apriori as apr
#配置参数,最小支持度min_support=0.1 ,最小置信度min_confidence=0
results = apr.extract_type_df(extract_type_df,min_support = 0.1, min_confidence = 0)
#查看算法产出结果
for result in results:# 获取支持度,并保留3位小数support = round(result.support, 3)# 遍历ordered_statistics对象for rule in result.ordered_statistics:# 获取前件和后件并转成列表head_set = list(rule.items_base)tail_set = list(rule.items_add)# 跳过前件为空的数据if head_set == []:continue# 将前件、后件拼接成关联规则的形式related_catogory = str(head_set)+'→'+str(tail_set)# 提取置信度,并保留3位小数confidence = round(rule.confidence, 3)# 提取提升度,并保留3位小数lift = round(rule.lift, 3)# 查看强关联规则,支持度,置信度,提升度print(related_catogory, support, confidence, lift)

结果展示:

在使用默认最小置信度为0的情况下,我们一共筛选出了10 条关联规则。下一步,就要根据我们自己的实际情况,确定一个合适的最小置信度,选出强关联规则。

为此,我单独提取了这 10 条关联规则的置信度,并查看了它们的描述性统计信息,数值情况如下:

# 提取关联规则的置信度
confidences = [0.233, 1.0, 0.744, 0.395, 0.326, 0.452, 1.0, 0.222, 0.235, 0.613]
# 查看置信度的描述性统计信息
s = pd.Series(confidences).describe()

最小值为0.2,最大值为1.0,极值相差较大;另外,业务需求来讲,10条规则未免过多,实际只需要6条即可,故我们重新将最小置信度参数confidence调整为0.3 后再次进行关联规则的产出,并且将产出结果转换为DataFrame以支持度进行排序,便于后续分析:

# 执行Apriori 算法
results = apr(extract_type_df['文章类别'], min_support=0.1, min_confidence=0.3)
# 创建列表
extract_result = []for result in results:# 获取支持度,并保留3位小数support = round(result.support, 3)# 遍历ordered_statistics对象for rule in result.ordered_statistics:# 获取前件和后件并转成列表head_set = list(rule.items_base)tail_set = list(rule.items_add)# 跳过前件为空的数据if head_set == []:continue# 将前件、后件拼接成关联规则的形式related_catogory = str(head_set)+'→'+str(tail_set)# 提取置信度,并保留3位小数confidence = round(rule.confidence, 3)# 提取提升度,并保留3位小数lift = round(rule.lift, 3)# 将提取的数据保存到提取列表中extract_result.append([related_catogory, support, confidence, lift])
# 将数据转成 DataFrame 的形式
rules_data = pd.DataFrame(extract_result, columns=['关联规则', '支持度', '置信度', '提升度'])# 将数据按照“支持度”排序
sorted_by_support = rules_data.sort_values(by='支持度')
# 查看排序后的数据
sorted_by_support

产出结果为:

关系是促进还是抑制,关键是要看它们的提升度

本次筛选出来的强关联规则提升度大于 1(促进)和小于 1(抑制)的都有,但它们的指导作用是截然相反的,将数据分开来分析是一个明智的选择。

故将提升度>1的规则我们进行单独提取:

# 提取出提升度大于1的数据,并重置数据的索引
promoted_rules = sorted_by_support[sorted_by_support['提升度'] > 1].reset_index(drop=True)
promoted_rules

提取结果为:

由此可知,有促进作用的关联规则一共有 4 个,其中“爬虫”和“Python”互为促进关系,阅读“sql”文章的用户更有可能阅读“Python”文章,喜欢阅读“pandas”文章的读者大概率也会喜欢阅读“数据分析”。

数据可视化展现

1.关联规则的支持度与置信度,促进关系时(即提升度>1)的柱状图绘制

# 功能:绘制提升度大于 1 的强关联规则柱状图
#导入模块
import matplotlib.pyplot as plt
import warnings
# 设置画布尺寸
plt.figure(figsize=(20, 8))
# 设置横纵坐标以及柱子的宽度
width = 0.2
# 画出柱状图
plt.bar(promoted_rules.index-width/2, promoted_rules['支持度'], width=width)
plt.bar(promoted_rules.index+width/2, promoted_rules['置信度'], width=width)
# 设置图例
plt.legend(['支持度', '置信度'], fontsize=20)
# 设置标题
plt.title('促进关系的关联规则的支持度、置信度', fontsize=25)
# 设置刻度名称
plt.xticks(promoted_rules.index, promoted_rules['关联规则'], fontsize=15)
# 设置坐标轴标签
plt.xlabel('关联规则', fontsize=20)
plt.ylabel('数值', fontsize=20)

2.1.关联规则的支持度与置信度,抑制关系时(即提升度<1)的柱状图绘制

# 提取出提升度小于1的数据,并重置数据的索引
restricted_rules = sorted_by_support[sorted_by_support['提升度'] < 1].reset_index(drop=True)
restricted_rules
# 功能:绘制提升度小于 1 的强关联规则柱状图
# 设置画布尺寸
plt.figure(figsize=(20, 8))
# 画出柱状图
plt.bar(restricted_rules.index-width/2, restricted_rules['支持度'], width=width)
plt.bar(restricted_rules.index+width/2, restricted_rules['置信度'], width=width)
# 设置图例
plt.legend(['支持度', '置信度'], fontsize=20)
# 设置标题
plt.title('抑制关系的关联规则的支持度、置信度', fontsize=25)
# 设置刻度名称
plt.xticks(restricted_rules.index, restricted_rules['关联规则'], fontsize=15)
# 设置坐标轴标签
plt.xlabel('关联规则', fontsize=20)
plt.ylabel('数值', fontsize=20)

分析结论

基于这两份结果和公众号的排版需求,现在我们可以提出以下3条建议:

1)当“头条”文章是介绍有关“Sql”的内容时,不妨考虑搭配“python”的“次条”(置信度1,提升度1.04)。
2)当“爬虫”类文章成为“头条”时,可以提高“Python”(置信度0.452,提升度1.04)、降低“数据分析”的“次条”排布(置信度0.613,提升度0.749)。
3)阅读“pandas”的用户大概率也喜欢“数据分析”,可在文章末尾,添加“数据分析”相关的拓展链接,提升阅读量(置信度1,提升度1.222)。

这篇关于利用Apr算法做关联性分析:以对公众号推送的文章类型组合做出优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/405029

相关文章

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.