本文主要是介绍先验概率和后验概率,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
全概率公式
设 A 1 , A 2 , . . . A n A_1,A_2,...A_n A1,A2,...An为样本空间 Ω \Omega Ω的一个完备事件组,且 P ( A i ) > 0 ( i = 1 , 2 , 3 , . . . , n ) P(A_i)>0 (i=1,2,3,...,n) P(Ai)>0(i=1,2,3,...,n), B B B为任一事件,则
P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)
贝叶斯公式
设 A 1 , A 2 , . . . A n A_1,A_2,...A_n A1,A2,...An为样本空间 Ω \Omega Ω的一个完备事件组,且 P ( A i ) > 0 ( i = 1 , 2 , 3 , . . . , n ) P(A_i)>0 (i=1,2,3,...,n) P(Ai)>0(i=1,2,3,...,n), B B B为满足条件 P ( B ) > 0 P(B)>0 P(B)>0的任一事件,则
P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)} P(Ai∣B)=∑i=1nP(Ai)P(B∣Ai)P(Ai)P(B∣Ai)
先验概率(prior probability): 指根据以往经验和分析。 在实验或采样前就可以得到的概率。
后验概率(posterior probability): 指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。
<基础系列>1:先验概率 & 后验概率
交叉熵如何保证样本的先验概率与后验概率相等的
交叉熵是一种衡量两个概率分布之间差异的度量方法,常用于分类问题中评估模型输出概率分布与真实标签的概率分布之间的差异。在这种应用中,模型输出的是后验概率分布,而与之比较的真实标签则可以被视为先验概率分布的一种表示。
首先,我们需要澄清一个概念上的误区:交叉熵本身并不保证样本的先验概率与后验概率相等。交叉熵是用来衡量两个概率分布之间差异的,其核心目的在于通过最小化模型输出(后验概率)与真实标签分布(可以视作一种“目标”先验概率分布)之间的交叉熵,使模型学习到的概率分布尽可能地接近真实的概率分布。
具体来说,如果我们有一个分类任务,真实标签(对应于先验概率)可以表示为一个"one-hot"向量,例如在一个三分类问题中,某个样本真实的类别是第二类,那么它的表示可以是[0, 1, 0]。这里,"1"的位置表示这个样本属于第二类的概率是100%,而其他位置为0表示该样本属于其他类的概率是0%。这就是我们说的先验概率分布。
模型在这个样本上的输出,即后验概率分布,可能是像[0.1, 0.7, 0.2]这样的一个向量,表示模型认为这个样本属于第一、第二、第三类的概率分别是10%, 70%, 和20%。这时,我们使用交叉熵来衡量这两个分布之间的差异。
在训练过程中,通过反向传播算法优化模型参数,目的就是最小化交叉熵,从而鼓励模型的后验概率分布尽可能接近于先验概率分布。但是,这里的“先验概率分布”实际上是通过数据给定的,它代表了我们对样本真实分类的知识或者说标签。
总之,交叉熵作为损失函数,在机器学习中主要用来指导模型输出的后验概率分布向真实的标签(也可以理解为一种先验概率分布)靠拢,但它并不保证先验概率与后验概率绝对相等,而是通过不断优化过程中减小两者之间的差异。
这篇关于先验概率和后验概率的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!