Scikit-Learn朴素贝叶斯

2024-05-26 12:04
文章标签 贝叶斯 朴素 scikit learn

本文主要是介绍Scikit-Learn朴素贝叶斯,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Scikit-Learn朴素贝叶斯

    • 1、朴素贝叶斯
      • 1.1、贝叶斯分类
      • 1.2、贝叶斯定理
      • 1.3、贝叶斯定理的推导
      • 1.4、朴素贝叶斯及原理
      • 1.5、朴素贝叶斯的优缺点
    • 2、Scikit-Learn朴素贝叶斯
      • 2.1、Sklearn中的贝叶斯分类器
      • 2.2、Scikit-Learn朴素贝叶斯API
      • 2.3、Scikit-Learn朴素贝叶斯实践(新闻分类与预测)




1、朴素贝叶斯


贝叶斯分类法是基于贝叶斯定理的统计学分类方法。它通过预测一组给定样本属于一个特定类的概率来进行分类。贝叶斯分类在机器学习知识结构中的位置如下:

在这里插入图片描述

1.1、贝叶斯分类


贝叶斯分类的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。不过,贝叶斯分类得到广泛实际应用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能

在众多机器学习分类算法中,贝叶斯分类和其他绝大多数分类算法都不同

例如,KNN、逻辑回归、决策树等模型都是判别方法,也就是直接学习出输出Y和特征X之间的关系,即决策函数 Y Y Y= f ( X ) f(X) f(X)或决策函数 Y Y Y= P ( Y ∣ X ) P(Y|X) P(YX)

但是,贝叶斯是生成方法,它直接找出输出Y和特征X的联合分布 P ( X , Y ) P(X,Y) P(X,Y),进而通过 P ( Y ∣ X ) P(Y|X) P(YX)= P ( X , Y ) P ( X ) \frac{P(X,Y)}{P(X)} P(X)P(X,Y)计算得出结果判定

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(Naive Bayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法

朴素贝叶斯算法的核心思想是通过特征考察标签概率来预测分类,即对于给定的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别

例如,基于属性和概率原则挑选西瓜,根据经验,敲击声清脆说明西瓜还不够成熟,敲击声沉闷说明西瓜成熟度好,更甜更好吃。所以,坏瓜的敲击声是清脆的概率更大,好瓜的敲击声是沉闷的概率更大。当然这并不绝对——我们千挑万选的沉闷瓜也可能并没熟,这就是噪声了。当然,在实际生活中,除了敲击声,我们还有其他可能特征来帮助判断,例如色泽、根蒂、品类等

朴素贝叶斯把类似敲击声这样的特征概率化,构成一个西瓜的品质向量以及对应的好瓜/坏瓜标签,训练出一个标准的基于统计概率的好坏瓜模型,这些模型都是各个特征概率构成的。这样,在面对未知品质的西瓜时,我们迅速获取了特征,分别输入好瓜模型和坏瓜模型,得到两个概率值。如果坏瓜模型输出的概率值更大一些,那这个瓜很有可能就是个坏瓜

1.2、贝叶斯定理


贝叶斯定理(Bayes Theorem)也称贝叶斯公式,其中很重要的概念是先验概率、后验概率和条件概率

1.2.1、先验概率

先验概率是指事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率

例如,如果我们对西瓜的色泽、根蒂和纹理等特征一无所知,按照常理来说,好瓜的敲声是沉闷的概率更大,假设是60%,那么这个概率就被称为先验概率

1.2.2、后验概率

后验概率是指事件发生后的条件概率。后验概率是基于先验概率求得的反向条件概率。概率形式与条件概率相同

例如,我们了解到判断西瓜是否好瓜的一个指标是纹理。一般来说,纹理清晰的西瓜是好瓜的概率更大,假设是75%,如果把纹理清晰当作一种结果,然后去推测好瓜的概率,那么这个概率就被称为后验概率

1.2.3、条件概率

条件概率是指一个事件发生后另一个事件发生的概率。一般的形式为P(B|A),表示事件A已经发生的条件下,事件B发生的概率
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)

1.2.4、贝叶斯公式

贝叶斯公式是基于假设的先验概率与给定假设下观察到不同样本数据的概率提供了一种计算后验概率的方法。朴素贝叶斯模型依托于贝叶斯公式
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

贝叶斯公式中:

  • P(A)是事件A的先验概率,一般都是人主观给定的。贝叶斯中的先验概率一般特指它
  • P(B)是事件B的先验概率,与类别标记无关,也称标准化常量,通常使用全概率公式计算得到
  • P(B|A)是条件概率,又称似然概率,一般通过历史数据统计得到
  • P(A|B)是后验概率,后验概率是我们求解的目标

由于P(B)与类别标记无关,因此估计P(A|B)的问题最后就被我们转化为基于训练数据集样本先验概率P(A)和条件概率P(B|A)的估计问题

贝叶斯公式揭示了事件A在事件B发生条件下的概率与事件B在事件A发生条件下的概率的关系

更多关于条件概率、全概率公式与贝叶斯公式的介绍详见文章:传送门

1.3、贝叶斯定理的推导


根据条件概率公式可得
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(BA)P(A)

同理可得
P ( B A ) = P ( A ∣ B ) P ( B ) P(BA)=P(A|B)P(B) P(BA)=P(AB)P(B)

设事件A与事件B互相独立,即 P ( A B ) P(AB) P(AB)= P ( B A ) P(BA) P(BA),则有
P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(B|A)P(A)=P(A|B)P(B) P(BA)P(A)=P(AB)P(B)

由此可得贝叶斯公式
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

1.4、朴素贝叶斯及原理


基于贝叶斯定理的贝叶斯模型是一类简单常用的分类算法。在假设待分类项的各个属性相互独立的前提下,构造出来的分类算法就称为朴素的,即朴素贝叶斯算法

所谓朴素,就是假定所有输入事件之间相互独立。进行这个假设是因为独立事件间的概率计算更简单,当然,也更符合我们的实际生产生活

朴素贝叶斯模型的基本思想是,对于给定的待分类项 X { x 1 , x 2 , . . . , x n } X\{{x_1,x_2,...,x_n}\} X{x1,x2,...,xn},求解在此项出现的条件下各个类别 P ( y i ∣ X ) P(y_i|X)

这篇关于Scikit-Learn朴素贝叶斯的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1004413

相关文章

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征 在机器学习领域,朴素贝叶斯是一种常用的分类算法,它的简单性和高效性使得它在实际应用中得到了广泛的应用。然而,在使用朴素贝叶斯算法进行分类时,我们通常会面临一个重要的问题,就是如何处理连续特征和离散特征。因为朴素贝叶斯算法基于特征的条件独立性假设,所以对于不同类型的特征,我们需要采取不同的处理方式。 在本篇博客中,我们将探讨如何有效地处理

【Python】处理 scikit-learn 中的 SettingWithCopyWarning

那年夏天我和你躲在 这一大片宁静的海 直到后来我们都还在 对这个世界充满期待 今年冬天你已经不在 我的心空出了一块 很高兴遇见你 让我终究明白 回忆比真实精彩                      🎵 王心凌《那年夏天宁静的海》 这不是一个错误,而是一个 SettingWithCopyWarning 警告。这个警告在你尝试修改一个从 DataFrame 的切片(子集)上创建的副本时

【Python】处理 scikit-learn 中的 FutureWarning

那年夏天我和你躲在 这一大片宁静的海 直到后来我们都还在 对这个世界充满期待 今年冬天你已经不在 我的心空出了一块 很高兴遇见你 让我终究明白 回忆比真实精彩                      🎵 王心凌《那年夏天宁静的海》 在数据科学和机器学习领域,scikit-learn 是一个非常流行的库,用于构建和评估各种机器学习模型。然而,随着版本的更新,库中的某些模块和功能可能会被

贝叶斯网络风险系统实例

应用的知识 最优分段 主成分分析 贝叶斯网络 套袋算法 spearman相关系数 数据重命名、连接、聚合等等处理 code #加载所需的包library(data.table)library(dplyr)library(psych)library(caret) library(smbinning) #设置工作路径setwd('D:\\R\\wokingdiretory\

python skikit-learn库总结

1、简介 scikit-learn是一个建立在Scipy基础上的用于机器学习的python模块,而在不同的领域中已经发展出为数众多的基于Scipy的工具包,它们被统一称为Scikits,而在所有的分支版本中,scikit-learn是最有名的。它是开源的,任何人都可以免费地使用它或者进行二次发行。 scikit-learn包含众多定级机器学习算法,它主要有6大类的基本功能,分别是分类,回归,聚

AI学习指南机器学习篇-伯努利朴素贝叶斯算法简介

AI学习指南机器学习篇-伯努利朴素贝叶斯算法简介 1. 伯努利朴素贝叶斯算法的原理 1.1 算法的基本思想 伯努利朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类算法。其基本思想是通过先验概率和类条件概率来计算后验概率,从而实现对样本进行分类。 1.2 分类问题中的应用 伯努利朴素贝叶斯算法在文本分类、垃圾邮件过滤、情感分析等领域有着广泛的应用。在文本分类中,可以通过统计文档中单词

AI学习指南机器学习篇-高斯朴素贝叶斯算法简介

AI学习指南机器学习篇-高斯朴素贝叶斯算法简介 高斯朴素贝叶斯算法的原理 算法的基本思想 高斯朴素贝叶斯算法是贝叶斯分类器的一种,其基本思想是通过计算输入特征对于每个类别的概率,然后选择具有最高概率的类别作为最终的分类结果。其“朴素”之处在于假设特征之间相互独立,且每个特征对于分类的影响是相同的。 分类问题中的应用与多元高斯分布的关系 高斯朴素贝叶斯算法在分类问题中被广泛应用,特别是在文

AI学习指南机器学习篇-多项式朴素贝叶斯算法简介

AI学习指南机器学习篇-多项式朴素贝叶斯算法简介 前言 随着人工智能技术的快速发展,机器学习作为其中的一个重要分支已经成为各个领域的热门话题。而在机器学习算法中,朴素贝叶斯算法因其简单易懂、效果不俗而备受青睐。本文将针对多项式朴素贝叶斯算法展开详细介绍,包括原理、应用、优缺点分析等内容,帮助读者更好地理解和运用这一经典的机器学习算法。 多项式朴素贝叶斯算法的原理 多项式朴素贝叶斯算法是一种

Scikit-learn学习笔记(一)

Scikit-learn学习笔记(一)     这段时间在学习机器学习相关的知识,一方面要学习理论知识,另一方面还要不断的练习和实践,只有不断的实践才能真正地掌握和理解这些理论知识。在众多编程语言中,python具有独特的优势,也是机器学习领域使用最多的语言之一,因为其语法简洁、可移植性好以及快速迭代的优势,使其成为机器学习各种算法实现的最佳载体之一,scikit-learn是python版的机

AI学习指南机器学习篇-朴素贝叶斯分类器

AI学习指南机器学习篇-朴素贝叶斯分类器 1. 介绍 在机器学习中,朴素贝叶斯分类器是一种简单而有效的分类算法。它基于贝叶斯定理和特征条件独立性假设,可以被用来解决多种分类问题。本篇博客将深入探讨朴素贝叶斯分类器的基本原理,包括如何进行分类预测,以及“朴素”的含义和特征条件独立性的假设。 2. 基本原理 2.1 贝叶斯定理 贝叶斯定理是描述随机事件发生概率的公式,它表达了在已知某一事件发