2|数据挖掘|关联规则理论部分|引言

2024-03-08 21:40

本文主要是介绍2|数据挖掘|关联规则理论部分|引言,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

week11-2022年11月11日|2023年2月16日更新

目录

0.数据挖掘基本算法

1.关联规则 Association Rules

1.1示例

1.2含义

1.3应用

2.市场购物篮分析

2.1分析事务数据库表

3.关联规则挖掘

4.基本概念

4.1包含

4.2频繁模式

4.3项集

4.4事务

4.5关联规则

4.6事务数据集

4.7事务标识TID

5.度量有趣的关联规则

5.1支持度s

5.2可信度c

5.3条件概率

5.4关联规则标准

6.市场购物篮分析——课堂思考

7.频繁项集

7.1项

7.2项集

7.3k-项集

7.4频繁(或大)项集

8.强关联规则

8.1强规则

9.关联规则挖掘

下节预告


0.数据挖掘基本算法

Apriori算法

Frequent-patterm tree和FP-growth算法

多维关联规则挖掘

相关规则

基于约束的关联规则挖掘

总结


1.关联规则 Association Rules

关联规则表示了项之间的关系

1.1示例

谷物,牛奶 => 水果

1.2含义

“买谷类食品和牛奶的人也会买水果”

1.3应用

商店可以把谷类食品和牛奶作特价品以使人们买更多的水果

2.市场购物篮分析

2.1分析事务数据库表

PersonBasket
A薯片, 沙司, 曲奇, 饼干, 可乐, 啤酒
B生菜, 菠菜, 桔子, 芹菜, 苹果, 葡萄
C薯片,沙司, 披萨, 蛋糕
D生菜,菠菜, 牛奶, 黄油

我们是否可假定?薯片=>沙司        生菜=>菠菜 

3.关联规则挖掘

在事务数据库,关系数据库和其他信息库中的对象的集合之间,发现频繁模式,关联,相关或因果关系的结构。​​​​​​​

4.基本概念

4.1包含

通常数据包含:

TID(事务ID)Basket(项的子集)

4.2频繁模式

数据库中出现频繁的模式(项集,序列,等等);

4.3项集

I=[i_{1},i_{2},i_{3},...,i_{m}]

4.4事务

T\subseteq i

4.5关联规则

A=>B

A\subset I,B\subset I,A\cap B=\varnothing

4.6事务数据集

事务数据集用D表示:

Transaction-idItems bought
10A,B,C
20A,C
30A,D
40B,E,F

4.7事务标识TID

每一个事务关联着一个标识,称作TID

5.度量有趣的关联规则

5.1支持度s

D中同时包含A和B的事务数与总的事务数的比值;

规则A=>B在数据集中D中的支持度为s,其中s表示D中包含A\cup B(即同时包含A和B)的事务的百分率,即可用条件概率P(A\cup B)表示。

support(A=>B)=P(A\cup B)

5.2可信度c

D中同时包含A和B的事务数与只包含A的事务数的比值;

规则 A=>B在数据集D中的可信度为c,其中c表示D中包含A的事务中也包含B的百分率,即可用条件概率P(B|A)表示。​​​​​​​

confidence(A=>B)=P(B|A)

5.3条件概率

条件概率P(B|A)表示A发生的条件下B也发生的概率。

5.4关联规则标准

关联规则根据以下两个标准(包含或排除):

最小支持度s:表示规则中的所有项在事务中出现的频度。

最小可信度c:表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度。

6.市场购物篮分析——课堂思考

(1)总共有A,B,C,D四个项集,例如{生菜,菠菜,桔子,芹菜,苹果,葡萄}是一个6项集,{薯片,沙司,披萨,蛋糕}是一个4项集;

(2)生菜,菠菜,桔子,芹菜,苹果,葡萄 ?

(3)支持度s 2(A+C)/4(A+B+C+D)=2/4=1/2;

(4)可信度c 2/2=1。

7.频繁项集

7.1项

项集里面包含的每一个物品;

7.2项集

​​​​​​​任意项的集合;

7.3k-项集

包含k个项的项集;

7.4频繁(或大)项集

满足最小支持度的项集。

8.强关联规则

给定一个项集,容易生成关联规则。

项集:{薯片,沙司,啤酒}

啤酒,薯片=>沙司

啤酒,沙司=>薯片

薯片,沙司=>啤酒

8.1强规则

强规则是有趣的;

强规则通常定义为那些满足最小支持度和最小可信度的规则。

给出一个项集,如何生成关联规则?

'买了什么物品之后,还会继续买什么?' ——> 强关联规则

9.关联规则挖掘

两个基本步骤

找出所有的频繁项集(条件:满足最小支持度)

找出所有的强关联规则

——由频繁项集生成关联规则

——保留满足最小可信度的规则

下节预告​​​​​​​

L_{1}一个示例

存在一个数据库:扫描数据库依次得到C_{1}L_{1}C_{2}L_{2}C_{3}L_{3}​​​​​​​;

只有前两项一致,我们才可以“相连”。

频繁1-项集 

构建FP-树 

 创建根节点...

这篇关于2|数据挖掘|关联规则理论部分|引言的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788484

相关文章

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

Adblock Plus官方规则Easylist China说明与反馈贴(2015.12.15)

-------------------------------特别说明--------------------------------------- 视频广告问题:因Adblock Plus的局限,存在以下现象,优酷、搜狐、17173黑屏并倒数;乐视、爱奇艺播放广告。因为这些视频网站的Flash播放器被植入了检测代码,而Adblock Plus无法修改播放器。 如需同时使用ads

项目实战系列三: 家居购项目 第四部分

购物车 🌳购物车🍆显示购物车🍆更改商品数量🍆清空购物车&&删除商品 🌳生成订单 🌳购物车 需求分析 1.会员登陆后, 可以添加家居到购物车 2.完成购物车的设计和实现 3.每添加一个家居,购物车的数量+1, 并显示 程序框架图 1.新建src/com/zzw/furns/entity/CartItem.java, CartItem-家居项模型 /***

码蹄集部分题目(2024OJ赛9.4-9.8;线段树+树状数组)

1🐋🐋配对最小值(王者;树状数组) 时间限制:1秒 占用内存:64M 🐟题目思路 MT3065 配对最小值_哔哩哔哩_bilibili 🐟代码 #include<bits/stdc++.h> using namespace std;const int N=1e5+7;int a[N],b[N],c[N],n,q;struct QUERY{int l,r,id;}que

关于断言的部分用法

1、带变量的断言  systemVerilog assertion 中variable delay的使用,##[variable],带变量的延时(可变延时)_assertion中的延时-CSDN博客 2、until 的使用 systemVerilog assertion 中until的使用_verilog until-CSDN博客 3、throughout的使用   常用于断言和假设中的

C++ STL关联容器Set与集合论入门

1. 简介 Set(集合)属于关联式容器,也是STL中最实用的容器,关联式容器依据特定的排序准则,自动为其元素排序。Set集合的底层使用一颗红黑树,其属于一种非线性的数据结构,每一次插入数据都会自动进行排序,注意,不是需要排序时再排序,而是每一次插入数据的时候其都会自动进行排序。因此,Set中的元素总是顺序的。 Set的性质有:数据自动进行排序且数据唯一,是一种集合元素,允许进行数学上的集合相

牛客小白月赛100部分题解

比赛地址:牛客小白月赛100_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ A.ACM中的A题 #include<bits/stdc++.h>using namespace std;#define ll long long#define ull = unsigned long longvoid solve() {ll a,b,c;cin>>a>>b>