Apriori介绍及代码批注

2023-10-28 20:12
文章标签 代码 介绍 apriori 批注

本文主要是介绍Apriori介绍及代码批注,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、Apriori原理解析

1. 概述

关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找到各项之间的关联关系,而这种关系并没有在数据中直接体现出来。以超市的销售数据为例,当存在很多商品时,可能的商品组合数量达到了令人望而却步的程度,这是提取关联规则的最大困难。因此各种关联规则分析算法从不同方面入手减少可能的搜索空间大小以及减少扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的算法,第一次实现了在大数据集上的的关联规则提取,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。

2. 关键词

关联分析:找出物品中的潜在关系。

频繁项集:频繁一起出现的物品集的集合。

关联规则:两种物品存在的关系(先找频繁项集,再根据关联规则找关联物品)。

支持度(Support):项集A和B的支持度被定义为数据集中同时包含这两项集的记录所占的比例(通俗理解,就是事件A和B同时发生的概率)。公式为Support(A=>B)=P(A∪B)。

置信度(可信度)(Confidence):项集A发生,则项集B发生的概率为关联规则的置信度(通俗理解,在A发生的情况下B发生的概率为多少P(B/A))。公式为Confidence(A=>B)=P(B|A)。

3. Apriori算法

Apriori的作用是根据物品间的支持度找出物品中的频繁项集。通过上面我们知道,支持度越高,说明物品越受欢迎。那么支持度怎么决定呢?这个由我们主观决定,我们会给Apriori提供一个最小支持度参数,然后Apriori会返回比这个最小支持度高的那些频繁项集。

要使用Apriori算法,我们至少需要提供两个参数,数据集和最小支持度。我们从前面已经知道了Apriori会遍历所有的物品组合,遍历的方法就是使用递归。先遍历1个物品组合的情况,剔除掉支持度低于最小支持度的数据项,然后用剩下的物品进行组合。遍历2个物品组合的情况,再剔除不满足条件的组合。不断递归下去,直到不再有物品可以组合。
在这里插入图片描述
其核心是:如果一个项集是非频繁项集,那么它的所有超集也是非频繁项集。可以发现如果{A,B}这个项集是非频繁的,那么{A,B}这个项集的超集,{A,B,C},{A,B,D}等等也都是非频繁的,这些就都可以忽略不去计算,从而减轻计算,实现剪枝。
在这里插入图片描述

二、代码批注

1. Apriori批注

from __future__ import print_function
import pandas as pddef connect_string(x, ms):""":param x: column:param ms: 连接符:return: # 返回与1项频繁集连接生成新的项集"""# 这里的map是映射map,与series.map不一样,下面是利用series的写法# column = pd.Series(column)# x = list(column.map(lambda i: sorted(i.split('--'))))x = list(map(lambda i: sorted(i.split(ms)), x))# 获得目前的频繁集内的项数l = len(x[0])# 存放新生成的频繁集r = []# 所有的频繁集两两比较,生成新的组合(比原来多一项)for i in range(len(x)):for j in range(i, len(x)):# 这里的意思就是{a,b,c} VS {a,b,d} -> {a,b,c,d}(a和b相同,c与d不同,最后向r里添加a,b与c,d)if x[i][:l - 1] == x[j][:l - 1] and x[i][l - 1] != x[j][l - 1]:r.append(x[i][:l - 1] + sorted([x[j][l - 1], x[i][l - 1]]))return rdef find_rule(d, support, confidence, ms=u'--'):""":param d: 数据集:param support: 支持度:param confidence: 置信度:param ms: 连接符:return: 符合支持度与置信度的关联规则集"""# 结果集合,最后to_excel保存result = pd.DataFrame(index=['support', 'confidence'])# 支持度序列:就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。# 1项集的支持度序列(sum():进行列求值;len():数据量)support_series = 1.0 * d.sum() / len(d)  # 默认index就是column# 初步根据支持度筛选# 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑋,𝑌)=𝑃(𝑋𝑌)=𝑛𝑢𝑚𝑏𝑒𝑟(𝑋𝑌)/𝑛𝑢𝑚(𝐴𝑙𝑙𝑆𝑎𝑚𝑝𝑙𝑒𝑠)column = list(support_series[support_series > support].index)k = 0while len(column) > 1:k = k + 1print(u'\n正在进行第%s次搜索...' % k)# 获得新的频繁集column = connect_string(column, ms)

2. main_apr.py

"""
使用Apriori算法挖掘菜品订单关联规则
"""
from __future__ import print_function
from apriori import *  # 导入自行编写的apriori函数
from timeit import default_timer as timerinputFile = '../data/Income.csv'
# 结果文件
outputFile = '../tmp/apriori_rules.xls'# 读取数据
data1 = pd.read_csv(inputFile)
data2 = data1.drop('Unnamed: 0', 1)  # 这个1是省略了axis,来区分行与列# 最小支持度
support = 0.1# 最小置信度
confidence = 0.9# 连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符
ms = '---'# 保存结果
tic = timer()# 保存结果
find_rule(data2, support, confidence, ms).to_excel(outputFile)toc = timer()# 计算耗时
print(toc - tic)

三、运行结果

在这里插入图片描述
根据上述结果,可以观察到,支持度和置信度越高符合条件的频繁集会越少,所花时间、递归次数就越少;递归次数根据源码可得主要取决于支持度(代码中的support_series列表),支持度越大递归的次数也就会越少。对于该组数据,如果支持度为0.1的化符合条件的数据量太大,把置信度调整到0.9也有四千多条,感觉没有太大的意义,后期也比较难分析。所以在支持度为0.2的情况下效果更好一些。

四、优缺点

  • 优点
    1)Apriori算法采用逐层搜索的迭代方法,算法简单明了,没有复杂的理 论推导,也易于实现。
    2)适合事务数据库的关联规则挖掘。
    3)适合稀疏数据集。根据以往的研究,该算法只能适合稀疏数据集的关 联规则挖掘,也就是频繁项目集的长度稍小的数据集。
  • 缺点
    1)对数据库的扫描次数过多。
    2)Apriori算法可能产生大量的候选项集。
    3)在频繁项目集长度变大的情况下,运算时间显著增加。
    4)采用唯一支持度,没有考虑各个属性重要程度的不同。
    5)算法的适应面窄。

这篇关于Apriori介绍及代码批注的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/295672

相关文章

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

SpringCloud集成AlloyDB的示例代码

《SpringCloud集成AlloyDB的示例代码》AlloyDB是GoogleCloud提供的一种高度可扩展、强性能的关系型数据库服务,它兼容PostgreSQL,并提供了更快的查询性能... 目录1.AlloyDBjavascript是什么?AlloyDB 的工作原理2.搭建测试环境3.代码工程1.

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Java中ArrayList的8种浅拷贝方式示例代码

《Java中ArrayList的8种浅拷贝方式示例代码》:本文主要介绍Java中ArrayList的8种浅拷贝方式的相关资料,讲解了Java中ArrayList的浅拷贝概念,并详细分享了八种实现浅... 目录引言什么是浅拷贝?ArrayList 浅拷贝的重要性方法一:使用构造函数方法二:使用 addAll(

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

SpringBoot使用注解集成Redis缓存的示例代码

《SpringBoot使用注解集成Redis缓存的示例代码》:本文主要介绍在SpringBoot中使用注解集成Redis缓存的步骤,包括添加依赖、创建相关配置类、需要缓存数据的类(Tes... 目录一、创建 Caching 配置类二、创建需要缓存数据的类三、测试方法Spring Boot 熟悉后,集成一个外

轻松掌握python的dataclass让你的代码更简洁优雅

《轻松掌握python的dataclass让你的代码更简洁优雅》本文总结了几个我在使用Python的dataclass时常用的技巧,dataclass装饰器可以帮助我们简化数据类的定义过程,包括设置默... 目录1. 传统的类定义方式2. dataclass装饰器定义类2.1. 默认值2.2. 隐藏敏感信息

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

IDEA常用插件之代码扫描SonarLint详解

《IDEA常用插件之代码扫描SonarLint详解》SonarLint是一款用于代码扫描的插件,可以帮助查找隐藏的bug,下载并安装插件后,右键点击项目并选择“Analyze”、“Analyzewit... 目录SonajavascriptrLint 查找隐藏的bug下载安装插件扫描代码查看结果总结Sona

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类