统计学习-朴素贝叶斯

本文主要是介绍统计学习-朴素贝叶斯，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
也就是说朴素贝叶斯可以分为两部分，一部分是基于特征条件独立假设求出输入输出的联合概率分布，一部分就是基于贝叶斯定理求出后验概率。
1. $P(x,y)=P(x|y)*P(y)=P(x_1^k,x_2^k...,x_n^k|y_k)*P(y_k)=\prod _{i=1}^{n}P(x_i^k)*P(y_k)$ ;
2. $P(y|x)=\frac{P(x|y)*P(y)}{P(x)}$

后验概率最大化

选择0-1损失函数：
$L(Y,f(x))=\left\{\begin{matrix}1&Y \neq f(X)) \\ 0&Y =f(X)\end{matrix}\right.$
式中的 $f(X)$ 是分类决策函数，这时候期望风险函数为：
$R_{exp}(f)=E[L(Y,f(X))]$
期望是对联合分布 $P(X,Y)$ 取的，由此取条件期望：
$R_{exp}(f)=E_X[\sum_{k=1}^{K}(L(c_k,f(X))P(c_k|X))]$
为了使期望风险最小化，只需要对 $X=x$ 逐个极小化，由此得到：
$f(x)$
= $arg min \sum_{k=1}^{K}(L(c_k,f(X))P(c_k|X))$
= $argmin\sum_{k=1}^{K}P(f(X)\neq{c_k|X=x})$
= $argmin(1-P(y=c_k|X=x))$
= $argmaxP(y=c_k|X=x))$
这样一来期望风险最小化准则就得到后验概率准则

贝叶斯估计

用极大似然估计可能会出现所有估计得概率值为0的情况。这时会影响到后验概率的计算，解决这种情况一般使用贝叶斯估计。
$p(y=c_k)=\dfrac{\sum_{i=1}^{N}I（y_i=c_k）+ \lambda}{N+K\lambda}。。。。（1）$
$p(x^j=a_{jl}|y=c_k)=\dfrac{\sum_{i=1}^{N}I(x_i^{j}=a_{jl},y_i=c_k)+ \lambda}{\sum_{i=1}^{N}I(y_i=c_k)+L_j\lambda}。。。（2）$
$\sum_{l=1}^{L_j}p(x^j=a_{jl}|y=c_k)=1。。。（3）$
$K是类的个数 ,L_j是第j维特征的可以取得类别数$