第八章 朴素贝叶斯分类法

2024-01-04 14:58

本文主要是介绍第八章 朴素贝叶斯分类法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:贝叶斯分类包括朴素贝叶斯分类贝叶斯信念网络分类。本章介绍朴素贝叶斯分类,第九章将会介绍贝叶斯信念网络分类。


1、贝叶斯定理

1.1 条件概率:

                                            

       P(X|H) 表示事件H已经发生的前提下,事件X发生的概率,叫做事件H发生下事件X的条件概率。

1.2 贝叶斯定理:

                                             

        P(H|X):后验概率,或在条件X下,H的后验概率。

        P(H):先验概率,或H的先验概率。

        P(X|H):条件H下,X的后验概率。

        P(X):X的先验概率。


        贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:

                 很容易从给定的数据直接得出P(X)、P(H)和P(X|H),却很难直接得出P(H|X),但我们更关心P(H|X)。

        贝叶斯定理就为我们提供了从P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。

2、朴素贝叶斯分类

        朴素贝叶斯分类法是一种简单的分类算法。

        朴素贝叶斯分类法的思想基础是这样的:对于给出的待分类项,求解此项在出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

        朴素贝叶斯分类法的工作过程

      (1)选定训练元组及其相关联的类标号集合记为D。每个元组用一个n维属性向量X={x1,x2,…,xn}来表示,描述由n个属性A1,A2,...,An对元组的n个测量。

      (2)假定有m个类C1,C2,C3,...,Cm。待分类元组X,分类法将预测X属于具有最大后验概率的类。即:若,则X属于类 C

      (3)P(Ci|X)通过贝叶斯公式来计算。由于P(X)对所有类为常数,故只需P(X|Ci)P(Ci)最大即可。

                如果先验概率P(Ci)未知,通常假定这些类是等概率的,即P(C1)=...=P(Cm)。也可估算类先验概率P(Ci)= |Ci,D|/|D|,其中|Ci,D|是D中Ci类的训练元组数。

               为降低计算P(X|Ci)的开销,做类条件独立的朴素假定:假定属性值之间不存在依赖关系,则。在计算P(X|Ci)时,应考虑每个属性Ak是分类的还是连续值的:

              (a)若Ak是分类属性,则P(xk|Ci)=D中属性Ak值为xk的Ci类的元组个数/D中Ci类的元组数|Ci,D|。

              (b)若Ak是连续值属性,则假定连续值属性服从均值为μ、标准差为σ的高斯分布(正态分布):,则P(xk|Ci)=f(xkCiCi),其中μCi(σCi)表示在类Ci的情况下属性Ak的均值(方差)。


        朴素贝叶斯分类法的工作过程框架图

                                                                

        朴素贝叶斯分类法的有效性

        该分类法与决策树和神经网络分类法的各种比较试验表明,在某些领域,贝叶斯分类法具有最小的错误率。然而,实践中并非总是如此。这是由于对其使用的假定(如类条件独立性)的不正确性,以及缺乏可用的概率数据造成的。

        使用朴素贝叶斯分类预测类标号

        训练数据如下表所示:

                                                               

        数据元组用属性age、income、student和credit_rating描述,

        类标号属性buys_computer具有两个不同值{ yes,no }。

        待分类的元组:X=(age= youth, income= medium, student= yes,credit_rating= fair

      (1)根据训练元组计算每个类的先验概率P(Ci):

                   P(buys_computer= yes )=9/14=0.643

                   P(buys_computer= no ) =5/14=0.357

      (2)计算条件概率P(X|Ci),i=1、2,

                   P(age= youth | buys_computer= yes )      =2/9=0.222

                   P(age= youth | buys_computer= no )       =3/5=0.600

                   P(income= medium | buys_computer= yes) =4/9=0.444

                   P(income= medium | buys_computer= no) =2/5=0.400

                   P(student= yes | buys_computer= yes )     =6/9=0.667

                   P(student= yes | buys_computer= no )     =1/5=0.200

                   P(credit_rating= fair | buys_computer= yes) =6/9=0.667

                   P(credit_rating= fair | buys_computer= no )=2/5=0.400

            从(2)中计算的概率得到:

                        P(X | buys_computer= yes)= P(age= youth | buys_computer= yes)

                                                                            ×P(income= medium | buys_computer= yes)

                                                                            ×P(student= yes | buys_computer= yes)

                                                                            ×P(credit_rating= yes | buys_computer= yes)

                                                                         =0.222×0.444×0.667×0.667 =0.044

            同理:

                     P(X | buys_computer= no) =0.600×0.400×0.200×0.400 =0.019

     (3)寻找最大化P(X|Ci)P(Ci)的类,计算:

                        P(X|buys_computer= yes)P(buys_computer=yes)=0.044×0.643=0.028

                        P(X|buys_computer= no)P(buys_computer=no)  =0.019×0.357=0.007

     (4)比较得出结果,元组X的类为buys_computer= yes

 

        如果遇到零概率值怎么办?

        如果得到某个P(xk|Ci)的概率值为零,会发生什么?

        将这个零值代入上面的式中,将返回P(X|Ci)的概率为零,尽管没有这个零概率,仍然可能得到一个表明X属于Ci类的高概率。

        避免技巧:拉普拉斯校准/拉普拉斯估计法

        可以假定训练数据库D很大,以至于对每个计数加1造成的估计概率的变化可以忽略不计。如果对q个计数都加上1,则必须记住在用于计算概率的对应分母上加上q。用下面的例子解释这一技术。


 

这篇关于第八章 朴素贝叶斯分类法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/569690

相关文章

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

《数据结构(C语言版)第二版》第八章-排序(8.3-交换排序、8.4-选择排序)

8.3 交换排序 8.3.1 冒泡排序 【算法特点】 (1) 稳定排序。 (2) 可用于链式存储结构。 (3) 移动记录次数较多,算法平均时间性能比直接插入排序差。当初始记录无序,n较大时, 此算法不宜采用。 #include <stdio.h>#include <stdlib.h>#define MAXSIZE 26typedef int KeyType;typedef char In

C语言-第八章:指针进阶

传送门:C语言-第七章:字符和字符串函数、动态内存分配 目录 第一节:常见指针         1-1.字符指针                 1-1-1.变量字符串                 1-1-2.常量字符串                        1-1-2-1.const 关键字 第二节:指针数组 第三节:数组指针 第四节:函数指针 第五节:函数指针数

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

Matlab simulink建模与仿真 第八章(数学运算库)【下】

参考视频:simulink1.1simulink简介_哔哩哔哩_bilibili 六、圆整函数及最值函数模块 1、Rounding Function圆整函数模块 圆整函数模块的功能是将小数转换为整数,它提供了四种取整方式: ①floor:向下取整,输出距离输入小数在负无穷方向上最近的整数。 ②ceil:向上取整,输出距离输入小数在正无穷方向上最近的整数。 ③round:四舍五入,输出距

第八章 无尽的任务

1999年,继UO之后又一款奠定网络游戏发展基调的游戏问世了,这就是《无尽的任务》。如果要回顾这款游戏的历史,可以追溯到其诞生10年之前——那一年里,3名年轻人开始了他们在游戏行业的生涯,日后3个人聚集到一起时,便催生了EQ的开发。 1989年,约翰·史沫特莱(John Smedley)是一名狂热的D&D奇幻游戏爱好者,他在1989年大学毕业后加入ATG,为苹果公

《数据结构(C语言版)第二版》第八章-排序(8.2-插入排序)

【8.2插入类、8.3交换类、8.4选择类、8.5归并类、8.6分配类 都属于内部排序。 】 8.2 插入排序 8.2.1 直接插人排序 【算法特点】 (1)稳定排序。 (2)算法简便,且容易实现。 (3)也适用于链式存储结构,只是在单链表上无需移动记录,只需修改相应的指针。 (4)更适合于初始记录基本有序(正序)的情况。 当初始记录无序,n较大时,此算法时间复杂度较高,不宜采用。 #in

回归预测 | Matlab基于贝叶斯算法优化XGBoost(BO-XGBoost/Bayes-XGBoost)的数据回归预测+交叉验证

回归预测 | Matlab基于贝叶斯算法优化XGBoost(BO-XGBoost/Bayes-XGBoost)的数据回归预测+交叉验证 目录 回归预测 | Matlab基于贝叶斯算法优化XGBoost(BO-XGBoost/Bayes-XGBoost)的数据回归预测+交叉验证效果一览基本介绍程序设计参考资料 效果一览 基本介绍 Matlab实现基于贝叶斯算法优化X

计算机三级网络技术总结 第八章无线局域网设备安装与调试

IEEE802.11最初定义的三个物理层包括了两个扩频技术和一个红外传播规范,无线传输的频道定义在2.4GHz的ISM波段内IEEE802.11无线标准定义的传输速度是1Mbps和2Mbps,可以使用FHSS和DSSS技术IEEE802.11在MAC层上引入了一个新的RTS/CTS选项点对点模式是指无线网卡和无线网卡之间的通讯方式在点对点模式中最多可连接256台PC基本模式是无线和有线网络并存的通

25版王道数据结构课后习题详细分析 第八章 8.2 插入排序

一、单项选择题 ———————————————————— ———————————————————— 解析:直接插入排序在最坏的情况下要做n(n-1)/2次关键字的比较,当n=5时, 关键字的比较次数为10。注意不考虑与哨兵的比较。 正确答案: ———————————————————— ———————————————————— 解析:由于序列初始基本有序,因此使用直接插入排序