简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5}...},并使用python实现简单关联规则

2023-10-11 01:50

本文主要是介绍简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5}...},并使用python实现简单关联规则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目: 简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5},{I2,I4},{I2,I3},{I1,I2,I4},{I1,I3},{I2,I3},{I1,I3},{I1,I2,I3,I5},{I1,I2,I3}},求频繁项集;并用python语言实现
解:

1.理论解答

1.1候选1-项集C1为:

项集数支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2

由于最小支持度为2/9=22%,因此最小支持度系数为2,将小于最小支持度系数的去掉,得到1-L1:

1.2 频繁1-项集 1-L1

频繁项集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2

1.3 候选2-项集C2为:

项集数支持度计数
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2
{I3,I4}0
{I3,I5}1
{I4,I5}0

将小于最小支持度系数去掉后,得到2-L2:

1.4 频繁2-项集2-L2

频繁项集支持度计数
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2

1.5 候选3-项集C3为:

项集数支持度计数
{I1,I2,I3}2
{I1,I2,I5}2
{I1,I3,I5}1
{I2,I3,I4}0
{I2,I3,I5}1
{I2,I4,I5}1

将小于最小支持度系数去掉后,得到3-L3:

1.6 频繁3-项集3-L3

频繁项集支持度计数
{I1,I2,I3}2
{I1,I2,I5}2

随后进行候选4项集,已经找不到大于等于最小支持度系数的项集,算法结束,最终得到的频繁项集和所对应的支持度计数为:

频繁项集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2
{I1,I2,I3}2
{I1,I2,I5}2

2.python代码实现:

2.1 获取数据集

data_set = [['I1', 'I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I2', 'I4'], ['I1', 'I3'], ['I2', 'I3'],['I1', 'I3'], ['I1', 'I2', 'I3', 'I5'], ['I1', 'I2', 'I3']]

可根据实际情况换成其他数据集。

2.2 定义最小支持度和最小置信度

min_sup = 0.2
min_con = 0.8

2.3. 封装程序需要的各个函数

(1)获取下一个频繁项集

# 获取下一个频繁项集
def get_next_fre_item_set(data_set, fre_item_set, can_item_len, min_sup_num):fre_items = list(fre_item_set.keys())next_fre_item_set = {}for i in range(len(fre_items) - 1):for j in range(i + 1, len(fre_items)):tempi = set()if isinstance(fre_items[i], str):tempi.add(fre_items[i])else:tempi = set(list(fre_items[i]))tempj = set()if isinstance(fre_items[j], str):tempj.add(fre_items[j])else:tempj = set(list(fre_items[j]))tempi.update(tempj)if len(tempi) > can_item_len:continueif tempi in list(set(item) for item in next_fre_item_set.keys()):continuefor record in data_set:if tempi.issubset(set(record)):if tempi in list(set(item) for item in next_fre_item_set.keys()):next_fre_item_set[tuple(tempi)] += 1else:next_fre_item_set[tuple(tempi)] = 1for key in list(next_fre_item_set.keys()):if next_fre_item_set[key] < min_sup_num:del next_fre_item_set[key]if len(list(next_fre_item_set.keys())) < 1:return Noneelse:return next_fre_item_set

(2)获取所有的频繁项集

# 获取频繁项集
def get_fre_item_sets(data_set, min_sup):num_record = len(data_set)min_sup_num = min_sup * num_recordfre_item_sets = []fre_item_sets.append({})# 统计每个元素的频次for record in data_set:for item in record:if item in fre_item_sets[0].keys():fre_item_sets[0][item] += 1else:fre_item_sets[0][item] = 1# 删除低于最小支持度的项for item in list(fre_item_sets[0].keys()):if fre_item_sets[0][item] < min_sup_num:del fre_item_sets[0][item]can_item_len = 2while True:if len(fre_item_sets[can_item_len - 2]) < 2:breakelse:next_fre_item_set = get_next_fre_item_set(data_set, fre_item_sets[can_item_len - 2], can_item_len,min_sup_num)if next_fre_item_set == None:breakelse:fre_item_sets.append(next_fre_item_set)can_item_len += 1return fre_item_sets

(3) 计算置信度

# 计算置信度
def calculate_confidence(fre_item_sets, subset, fre_item):len_mother = len(subset)len_son = len(fre_item)mother_key = Noneson_key = Noneif len_mother == 1:mother_key = subset[0]else:mother_keys = list(fre_item_sets[len_mother - 1].keys())for i in range(len(mother_keys)):if set(subset) == set(mother_keys[i]):mother_key = mother_keys[i]breakson_keys = list(fre_item_sets[len_son - 1].keys())for i in range(len(son_keys)):if set(fre_item) == set(son_keys[i]):son_key = son_keys[i]breakreturn fre_item_sets[len_son - 1][son_key] / fre_item_sets[len_mother - 1][mother_key]

(4)获取关联规则

# 获取关联规则
def get_association_rules(fre_item_sets, min_con):def subsets(itemset):N = len(itemset)subsets = []for i in range(1, 2 ** N - 1):tmp = []for j in range(N):if (i >> j) % 2 == 1:tmp.append(itemset[j])subsets.append(tmp)return subsetsassociation_rules = []for i in range(1, len(fre_item_sets)):fre_item_set = fre_item_sets[i]for fre_item in list(fre_item_set.keys()):tmp = {}all_subsets = subsets(fre_item)for s1 in range(len(all_subsets) - 1):for s2 in range(s1 + 1, len(all_subsets)):subset1 = all_subsets[s1]subset2 = all_subsets[s2]if len(subset1) + len(subset2) == len(fre_item) and len(set(subset1) & set(subset2)) == 0:confidence = calculate_confidence(fre_item_sets, subset1, fre_item)if confidence > min_con:temp = str(subset1) + ' > ' + str(subset2)tmp[temp] = confidenceconfidence = calculate_confidence(fre_item_sets, subset2, fre_item)if confidence > min_con:temp = str(subset2) + ' > ' + str(subset1)tmp[temp] = confidenceif tmp.keys():association_rules.append(tmp)return association_rules

2.4 使用以上函数进行关联规则的提取

(1)获取频繁项集并打印

fre_item_sets = get_fre_item_sets(data_set, min_sup)for i in fre_item_sets:print(i)

打印出的频繁项集如下,字典的value为出现的频次如下图所示:
在这里插入图片描述
(2)根据频繁项集获取关联规则

association_rules = get_association_rules(fre_item_sets, min_con)
for i in association_rules:print(i)

打印出的关联规则如下,字典的value为置信度如下图所示:
在这里插入图片描述

这篇关于简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5}...},并使用python实现简单关联规则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/184655

相关文章

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调