【NLP冲吖~】一、朴素贝叶斯（Naive Bayes）

本文主要是介绍【NLP冲吖~】一、朴素贝叶斯（Naive Bayes），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0、朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布，然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。

从数学角度，定义分类问题如下：
已知集合 $C = {y_1,y_2,...,y_n}$ 和 $I = {x_1,x_2,...,x_n}$ ，确定一个函数映射 $y = f (x)$ ，使得任意 $x_i∈I$ 有且仅有一个 $y_i∈C$ ，使得 $y_i∈f(x_i)$ 成立。

其中， $C$ 叫做类别集合，其中每一个元素都是一个类别，而 $I$ 叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

1、贝叶斯公式

$P (B ∣ A) = P (A ∣ B) P (B) / P (A)$
我们将B看作类别，A看作特征。即：
$P (类别 ∣ 特征) = P (特征 ∣ 类别) P (类别) / P (特征)$
求得 P(类别|特征)，我们就可以通过贝叶斯公式进行分类！

2、贝叶斯公式的本质

贝叶斯公式主要是描述了两种条件概率之间的关系，即P(AIB)与P(BIA)的关系。
P(A) 指事件A的先验概率，即在没有任何条件的情况下吗，对事件的基本判断。
P(AIB) 指后验概率，是在条件B之下事件A发生的概率。
P(BIA)/P(B) 相当于一个调整因子，使得先验概率经过调整得到后验概率，当这部分等于1，说明事件B的加入对于判断A的可能性没有帮助，先验等于后验。当它大于1，说明A发生的概率由于B的加入增大了。

3、分类案例

已知数据：

长毛/短毛	粘人/不粘人	攻击性强/弱	胆子大/小	是否纯种	是否好养
长毛	粘人	强	大	纯种	不好养
短毛	粘人	强	大	纯种	不好养
长毛	不粘人	强	大	纯种	不好养
长毛	粘人	弱	小	纯种	不好养
长毛	粘人	强	大	非纯种	不好养
短毛	不粘人	强	大	纯种	好养
短毛	粘人	弱	小	纯种	好养
长毛	不粘人	弱	大	非纯种	好养
短毛	粘人	弱	大	纯种	好养
长毛	粘人	弱	小	非纯种	好养

根据已知数据，判断短毛、粘人、攻击性弱、胆子大的非纯种猫是否好养。

P(好养|短毛、粘人、攻击性弱、胆子大、非纯种) = P(短毛、粘人、攻击性弱、胆子大、非纯种|好养)*P(好养) / P(短毛、粘人、攻击性弱、胆子大、非纯种)

可得：P(好养|短毛、粘人、攻击性弱、胆子大、非纯种) > P(不好养|短毛、粘人、攻击性弱、胆子大、非纯种)【只比较分子即可】

因此，可得短毛、粘人、攻击性弱、胆子大的非纯种猫好养。

4、朴素贝叶斯为什么朴素？

其实朴素贝叶斯算法假设每个特征之间是相互独立的，这是算法的使用前提。朴素指的就是这一前提。

5、朴素贝叶斯分类算法的优缺点

优点：算法逻辑简单，易于实现；分类时，消耗时间空间资源少。

缺点：朴素贝叶斯算法的前提条件是特征相互独立，但是在实际情况中，特征之间往往不会那么理想，特征数较多或者特征之间相关性较大时，分类效果不会很好。

因此，**当特征之间的相关性较小是，我们可以忽略其相关性而使用朴素贝叶斯算法进行分类，分类效果会好很多。**当然，也有后续算法会对其改进。

6、朴素贝叶斯在NLP中的应用

垃圾邮件分类：参考https://zhuanlan.zhihu.com/p/155632712
文本分类：参考https://blog.csdn.net/qiaowu898/article/details/107634195
。。。

这篇关于【NLP冲吖~】一、朴素贝叶斯（Naive Bayes）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【NLP冲吖~】一、朴素贝叶斯（Naive Bayes）

0、朴素贝叶斯法

1、贝叶斯公式

2、贝叶斯公式的本质

3、分类案例

4、朴素贝叶斯为什么朴素？

5、朴素贝叶斯分类算法的优缺点

6、朴素贝叶斯在NLP中的应用

相关文章

Python Transformers库(NLP处理库)案例代码讲解

Python实现NLP的完整流程介绍

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

【python 走进NLP】两两求相似度，得到一条文本和其他文本最大的相似度

【Python 走进NLP】NLP词频统计和处理停用词，可视化

【java 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】文本相似度各种距离计算

【python 走进NLP】句子相似度计算--余弦相似度

【NLP冲吖~】一、朴素贝叶斯（Naive Bayes）

0、朴素贝叶斯法

1、贝叶斯公式

2、 贝叶斯公式的本质

3、分类案例

4、 朴素贝叶斯为什么朴素？

5、朴素贝叶斯分类算法的优缺点

6、 朴素贝叶斯在NLP中的应用

相关文章

2、贝叶斯公式的本质

4、朴素贝叶斯为什么朴素？

6、朴素贝叶斯在NLP中的应用