自然语言处理5——发掘隐藏规律 - Python中的关联规则挖掘

2024-01-08 01:52

本文主要是介绍自然语言处理5——发掘隐藏规律 - Python中的关联规则挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 写在开头
  • 1. 了解关联规则挖掘的概念和实际应用
    • 1.1 关联规则挖掘在市场分析和购物篮分析中的应用
    • 1.2 关联规则的定义和基本原理
    • 1.3 应用场景
  • 2. 使用Apriori算法和FP-growth算法进行关联规则挖掘
    • 2.1 Apriori算法的工作原理和实现步骤
    • 2.2 FP-growth算法的优势和使用方法
    • 2.3 Apriori算法 vs FP-growth算法
  • 3. 结果解读和关联规则可视化
    • 3.1 如何解读挖掘出的关联规则
    • 3.2 利用可视化工具展示关联规则的分布
  • 写在最后

写在开头

在当今大数据时代,数据分析和挖掘技术成为解决实际问题和优化业务流程的重要工具。其中,关联规则挖掘作为一种强大的数据挖掘技术,在市场分析和购物篮分析中发挥着重要作用。本文将带领你深入了解关联规则挖掘的概念、实际应用,以及如何使用Python中的Apriori算法和FP-growth算法进行关联规则挖掘。最后,我们将探讨如何解读挖掘结果并通过可视化工具展示关联规则的分布。

1. 了解关联规则挖掘的概念和实际应用

1.1 关联规则挖掘在市场分析和购物篮分析中的应用

在市场分析中,关联规则挖掘是一种强大的工具,特别是在购物篮分析方面。通过分析顾客购物篮中的商品组合,企业可以发现不同商品之间的关联性,从而制定更精准的市场策略。例如,超市可能发现了牛奶和面包之间的强关联关系,于是将它们摆放在相邻货架上,提高了购买这两种商品的可能性,增加了销售额。

1.2 关联规则的定义和基本原理

定义: 关联规则是指在数据集中不同项之间存在的相关性或联合出现的模式。这些规则通常采用“X ⇒ Y”的形式,其中X和Y是数据集中的项,意味着当X出现时,可能会伴随着Y的出现。

基本原理: 关联规则挖掘的过程始于寻找频繁项集。频繁项集是在数据集中频繁出现的项的组合。常用的方法包括扫描数据集以计算每个项集的支持度(Support)。支持度表示项集出现的频率,高支持度的项集即为频繁项集。

生成关联规则: 基于频繁项集,可以计算置信度(Confidence)来生成关联规则。置信度是规则的可信度,例如,如果A出现,则B也出现的概率。高置信度的规则更可靠,通常作为有用的关联规则进行筛选。

购物篮分析的实现,是基于条件概率,也就是贝叶斯公式。在实际应用时,主要会牵扯到3个指标:置信度支持度提升度
将信息展示如下,N代表数量:

指标名称指标说明计算公式举例
产品A的订单数有购买过产品A的订单数量N(A)400
产品B的订单数有购买过产品B的订单数量N(B)300
同时购买产品A和B的订单数同时购买过产品A和B的订单数量N(A∩B)200
总订单数所有订单数量N(I)1000
支持度支持的程度,一般用百分比表示。本例中,A和B的支持度,即A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大A和B的支持度=N(A∩B)/ N(I)200/1000=20%
置信度揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现P(B|A)=P(A∩B) /P(A)=[N(A∩B)/N(I)]/[N(A)/N(I)]=N(A∩B)/N(A)200/400=50%
提升度提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立。P(A→B)=P(B|A)/P(B) =[N(A∩B)/N(I)]/[N(A)/N(I)]/[N(B)/N(I)]=N(A∩B)*N(I)/N(A)/N(B)法1:0.5/(300/1000)=0.5/0.3≈1.67 法2:150*1000/400/300≈1.67

1.3 应用场景

市场分析和购物篮分析

在零售业中,关联规则被广泛用于购物篮分析。超市利用这些规则发现消费者购买商品之间的关联关系,从而优化产品摆放、促销策略和交叉销售。例如,发现经常一起购买的商品,如牛奶和谷物,超市可以将它们放在相邻货架上,提高销售量。

医疗保健

在医疗领域,关联规则用于分析疾病和治疗方法之间的关系。医疗专家可以利用关联规则来发现特定病症与药物的关联性,指导临床决策,并提供更个性化的治疗方案。

网络安全

在网络安全中,关联规则挖掘可用于检测异常行为或入侵。通过分析网络流量数据,系统可以发现不同事件之间的关联模式,识别潜在的威胁或攻击,从而及时采取防御措施。

2. 使用Apriori算法和FP-growth算法进行关联规则挖掘

2.1 Apriori算法的工作原理和实现步骤

Apriori算法是一种经典的关联规则挖掘算法,它基于“先验原理”,即如果一个项集是频繁的,那么它的所有子集也是频繁的。这一原理减少了搜索空间,提高了算法效率。实现Apriori算法的步骤包括扫描数据集、生成候选项集、计算支持度、筛选频繁项集等。之前我在文章里有过详细的介绍,如果感兴趣,欢迎访问Python实现产品关联性分析apriori算法 ,此处仅作简单展示:

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules# 构建超市购物篮数据
data = [['面包', '牛奶', '啤酒'],['面包', '牛奶', '尿布', '蛋糕'],['牛奶', '尿布', '啤酒', '可乐'],['面包', '牛奶', '尿布', '啤酒'],['面包', '牛奶', 

这篇关于自然语言处理5——发掘隐藏规律 - Python中的关联规则挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/581960

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结