朴素贝叶斯算法原理小结 mark

2024-06-10 16:48

本文主要是介绍朴素贝叶斯算法原理小结 mark,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自我学习记录一下、mark

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN, 逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出 Y 和特征 X 之间的关系,要么是决策函数 $Y=f (X)$, 要么是条件分布 $P (Y|X)$。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出 Y 和特征 X 的联合分布 $P (X,Y)$, 然后用 $P (Y|X) = P (X,Y)/P (X)$ 得出。

    朴素贝叶斯很直观,计算量也不大,在很多领域有广泛的应用,这里我们就对朴素贝叶斯算法原理做一个小结。

1. 朴素贝叶斯相关的统计学知识

    在了解朴素贝叶斯的算法之前,我们需要对相关必须的统计学知识做一个回顾。

    贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。

    贝叶斯学派的思想可以概括为先验概率 + 数据 = 后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta 分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。

    我们先看看条件独立公式,如果 X 和 Y 相互独立,则有:

$$P(X,Y) =P(X)P(Y)$$

    我们接着看看条件概率公式:

$$P(Y|X) = P(X,Y)/P(X)$$

$$P(X|Y) = P(X,Y)/P(Y)$$

或者说:

$$ P(Y|X) = P(X|Y)P(Y)/P(X)$$

接着看看全概率公式

$$P (X) = \sum\limits_{k} P (X|Y =Y_k) P (Y_k) 其中 \sum\limits_{k} P (Y_k)=1$$

从上面的公式很容易得出贝叶斯公式:

$$P(Y_k|X) = \frac{P(X|Y_k)P(Y_k)}{\sum\limits_{k}P(X|Y =Y_k)P(Y_k)}$$

 2. 朴素贝叶斯的模型

    从统计学知识回到我们的数据分析。假如我们的分类模型样本是:$$(x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_n)$$

    即我们有 m 个样本,每个样本有 n 个特征,特征输出有 K 个类别,定义为 ${C_1,C_2,...,C_K}$。

    从样本我们可以学习得到朴素贝叶斯的先验分布 $P (Y=C_k)(k=1,2,...K)$, 接着学习到条件概率分布 $P (X=x|Y=C_k) = P (X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$, 然后我们就可以用贝叶斯公式得到 X 和 Y 的联合分布 P (X,Y) 了。联合分布 P (X,Y) 定义为:

$$ \begin{align} P(X,Y=C_k)  &= P(Y=C_k)P(X=x|Y=C_k) \\&= P(Y=C_k)P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) \end{align}$$

    从上面的式子可以看出 $ P (Y=C_k)$ 比较容易通过最大似然法求出,得到的 $ P (Y=C_k)$ 就是类别 $C_k$ 在训练集里面出现的频数。但是 $P (X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ 很难求出,这是一个超级复杂的有 n 个维度的条件分布。朴素贝叶斯模型在这里做了一个大胆的假设,即 X 的 n 个维度之间相互独立,这样就可以得出:

$$P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) = P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k)$$

    从上式可以看出,这个很难的条件分布大大的简化了,但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办?如果真是非常不独立的话,那就尽量不要使用朴素贝叶斯模型了,考虑使用其他的分类方法比较好。但是一般情况下,样本的特征之间独立这个条件的确是弱成立的,尤其是数据量非常大的时候。虽然我们牺牲了准确性,但是得到的好处是模型的条件分布的计算大大简化了,这就是贝叶斯模型的选择。

    最后回到我们要解决的问题,我们的问题是给定测试集的一个新样本特征 $(x_1^{(test)}, x_2^{(test)}, ...x_n^{(test)}$,我们如何判断它属于哪个类型?

    既然是贝叶斯模型,当然是后验概率最大化来判断分类了。我们只要计算出所有的 K 个条件概率 $P (Y=C_k|X=X^{(test)})$, 然后找出最大的条件概率对应的类别,这就是朴素贝叶斯的预测了。

3. 朴素贝叶斯的推断过程

    上节我们已经对朴素贝叶斯的模型也预测方法做了一个大概的解释,这里我们对朴素贝叶斯的推断过程做一个完整的诠释过程。

    我们预测的类别 $C_{result}$ 是使 $P (Y=C_k|X=X^{(test)})$ 最大化的类别,数学表达式为:

$$ \begin{align} C_{result}  & = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)}) \\& = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) \Bigg{/}P(X=X^{(test)}) \end{align}$$

    由于对于所有的类别计算 $P (Y=C_k|X=X^{(test)})$ 时,上式的分母是一样的,都是 $P (X=X^{(test)}$,因此,我们的预测公式可以简化为:

$$  C_{result}  = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) $$   

    接着我们利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式:

$$  C_{result}  = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k) $$

4. 朴素贝叶斯的参数估计

    在上一节中,我们知道只要求出 $P (Y=C_k) 和 P (X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$,我们通过比较就可以得到朴素贝叶斯的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率。

    对于 $P (Y=C_k)$, 比较简单,通过极大似然估计我们很容易得到 $P (Y=C_k)$ 为样本类别 $C_k$ 出现的频率,即样本类别 $C_k$ 出现的次数 $m_k$ 除以样本总数 m。

    对于 $P (X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$, 这个取决于我们的先验条件:

    a) 如果我们的 $X_j$ 是离散的值,那么我们可以假设 $X_j$ 符合多项式分布,这样得到 $P (X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中,$X_j^{(test)}$ 出现的频率。即:

$$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$$

    其中 $m_k$ 为样本类别 $C_k$ 出现的次数,而 $m_{kj^{test}}$ 为类别为 $C_k$ 的样本中,第 j 维特征 $X_j^{(test)}$ 出现的次数。

    某些时候,可能某些类别在样本中没有出现,这样可能导致 $P (X_j=X_j^{(test)}|Y=C_k)$ 为 0,这样会影响后验的估计,为了解决这种情况,我们引入了拉普拉斯平滑,即此时有:

$$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda}$$   

    其中 $\lambda$ 为一个大于 0 的常数,常常取为 1。$O_j$ 为第 j 个特征的取值个数。

    b) 如果我们我们的 $X_j$ 是非常稀疏的离散值,即各个特征出现概率很低,这时我们可以假设 $X_j$ 符合伯努利分布,即特征 $X_j$ 出现记为 1,不出现记为 0。即只要 $X_j$ 出现即可,我们不关注 $X_j$ 的次数。这样得到 $P (X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中,$X_j^{(test)}$ 出现的频率。此时有:

$$P(X_j=X_j^{(test)}|Y=C_k) = P(X_j|Y=C_k)X_j^{(test)} + (1 - P(X_j|Y=C_k))(1-X_j^{(test)})$$

    其中,$X_j^{(test)}$ 取值为 0 和 1。

    c) 如果我们我们的 $X_j$ 是连续值,我们通常取 $X_j$ 的先验概率为正态分布,即在样本类别 $C_k$ 中,$X_j$ 的值符合正态分布。这样 $P (X_j=X_j^{(test)}|Y=C_k)$ 的概率分布是:

$$P(X_j=X_j^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp\Bigg{(}-\frac{(X_j^{(test)} - \mu_k)^2}{2\sigma_k^2}\Bigg{)}$$

    其中 $\mu_k 和 \sigma_k^2$ 是正态分布的期望和方差,可以通过极大似然估计求得。$\mu_k$ 为在样本类别 $C_k$ 中,所有 $X_j$ 的平均值。$\sigma_k^2$ 为在样本类别 $C_k$ 中,所有 $X_j$ 的方差。对于一个连续的样本值,带入正态分布的公式,就可以求出概率分布了。

5.  朴素贝叶斯算法过程

    我们假设训练集为 m 个样本 n 个维度,如下:

$$(x_1^{(0)}, x_2^{(0)}, ...x_n^{(0)}, y_0), (x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)},y_1), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_n)$$

    共有 K 个特征输出类别,分别为 ${C_1,C_2,...,C_K}$, 每个特征输出类别的样本个数为 ${m_1,m_2,...,m_K}$, 在第 k 个类别中,如果是离散特征,则特征 $X_j$ 各个类别取值为 $m_{jl}$。其中 l 取值为 $1,2,...S_j$,$S_j$ 为特征 j 不同的取值数。

    输出为实例 $X^{(test)}$ 的分类。

    算法流程如下:

    1) 如果没有 Y 的先验概率,则计算 Y 的 K 个先验概率:$P (Y=C_k) = m_k/m$,否则 $P (Y=C_k)$ 为输入的先验概率。

    2) 分别计算第 k 个类别的第 j 维特征的第 l 个个取值条件概率:$P (X_j=x_{jl}|Y=C_k)$

      a) 如果是离散值:

$$P(X_j=x_{jl}|Y=C_k) = \frac{m_{kjl} + \lambda}{m_k + S_j\lambda}$$

      $\lambda$ 可以取值为 1,或者其他大于 0 的数字。

      b) 如果是稀疏二项离散值:$$P (X_j=x_{jl}|Y=C_k) = P (j|Y=C_k) x_{jl} + (1 - P (j|Y=C_k)(1-x_{jl}) $$

       此时 $l$ 只有两种取值。

      c) 如果是连续值不需要计算各个 l 的取值概率,直接求正态分布的参数:

$$P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp\Bigg{(}-\frac{(x_j - \mu_k)^2}{2\sigma_k^2}\Bigg{)}$$

      需要求出 $\mu_k 和 \sigma_k^2$。 $\mu_k$ 为在样本类别 $C_k$ 中,所有 $X_j$ 的平均值。$\sigma_k^2$ 为在样本类别 $C_k$ 中,所有 $X_j$ 的方差。

    3)对于实例 $X^{(test)}$,分别计算:

$$P(Y=C_k)\prod_{j=1}^{n}P(X_j=x_j^{(test)}|Y=C_k) $$

    4)确定实例 $X^{(test)}$ 的分类 $C_{result}$

$$C_{result}  = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k) $$

     从上面的计算可以看出,没有复杂的求导和矩阵运算,因此效率很高。

6.  朴素贝叶斯算法小结

    朴素贝叶斯算法的主要原理基本已经做了总结,这里对朴素贝叶斯的优缺点做一个总结。

    朴素贝叶斯的主要优点有:

    1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

    2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。

    3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。

    朴素贝叶斯的主要缺点有:   

    1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

    2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

    3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。

    4)对输入数据的表达形式很敏感。

    以上就是朴素贝叶斯算法的一个总结,希望可以帮到朋友们。

(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com)

这篇关于朴素贝叶斯算法原理小结 mark的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1048724

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

dp算法练习题【8】

不同二叉搜索树 96. 不同的二叉搜索树 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n = 3输出:5 示例 2: 输入:n = 1输出:1 class Solution {public int numTrees(int n) {int[] dp = new int