频繁项集挖掘以及关联规则的基本概念

2023-10-12 03:20

本文主要是介绍频繁项集挖掘以及关联规则的基本概念,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

在这里插入图片描述

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

这篇关于频繁项集挖掘以及关联规则的基本概念的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192885

相关文章

详解nginx 中location和 proxy_pass的匹配规则

《详解nginx中location和proxy_pass的匹配规则》location是Nginx中用来匹配客户端请求URI的指令,决定如何处理特定路径的请求,它定义了请求的路由规则,后续的配置(如... 目录location 的作用语法示例:location /www.chinasem.cntestproxy

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

关于Gateway路由匹配规则解读

《关于Gateway路由匹配规则解读》本文详细介绍了SpringCloudGateway的路由匹配规则,包括基本概念、常用属性、实际应用以及注意事项,路由匹配规则决定了请求如何被转发到目标服务,是Ga... 目录Gateway路由匹配规则一、基本概念二、常用属性三、实际应用四、注意事项总结Gateway路由

MYSQL关联关系查询方式

《MYSQL关联关系查询方式》文章详细介绍了MySQL中如何使用内连接和左外连接进行表的关联查询,并展示了如何选择列和使用别名,文章还提供了一些关于查询优化的建议,并鼓励读者参考和支持脚本之家... 目录mysql关联关系查询关联关系查询这个查询做了以下几件事MySQL自关联查询总结MYSQL关联关系查询

Redis 多规则限流和防重复提交方案实现小结

《Redis多规则限流和防重复提交方案实现小结》本文主要介绍了Redis多规则限流和防重复提交方案实现小结,包括使用String结构和Zset结构来记录用户IP的访问次数,具有一定的参考价值,感兴趣... 目录一:使用 String 结构记录固定时间段内某用户 IP 访问某接口的次数二:使用 Zset 进行

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

Adblock Plus官方规则Easylist China说明与反馈贴(2015.12.15)

-------------------------------特别说明--------------------------------------- 视频广告问题:因Adblock Plus的局限,存在以下现象,优酷、搜狐、17173黑屏并倒数;乐视、爱奇艺播放广告。因为这些视频网站的Flash播放器被植入了检测代码,而Adblock Plus无法修改播放器。 如需同时使用ads

【Rocketmq入门-基本概念】

Rocketmq入门-基本概念 名词解释名称服务器(NameServer)消息队列(Message Queue)主题(Topic)标签(Tag)生产者(Producer)消费者(Consumer)拉取模式(Pull)推送模式(Push)消息模型(Message Model) 关键组件Broker消息存储工作流程 名词解释 名称服务器(NameServer) 定义: 名称服务器

C++ STL关联容器Set与集合论入门

1. 简介 Set(集合)属于关联式容器,也是STL中最实用的容器,关联式容器依据特定的排序准则,自动为其元素排序。Set集合的底层使用一颗红黑树,其属于一种非线性的数据结构,每一次插入数据都会自动进行排序,注意,不是需要排序时再排序,而是每一次插入数据的时候其都会自动进行排序。因此,Set中的元素总是顺序的。 Set的性质有:数据自动进行排序且数据唯一,是一种集合元素,允许进行数学上的集合相