贝叶斯网络:利用变量消除(Variable Elimination)进行推理

2023-11-06 00:12

本文主要是介绍贝叶斯网络:利用变量消除(Variable Elimination)进行推理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

贝叶斯网络简介

贝叶斯网络(Bayesian network)也叫贝氏网路、信念网络(belief network)或是有向无环图(DAG)模型,是一种概率图模型。它利用DAG的结构,得到一组随机变量{X1,X2,...,Xn}的条件概率分布(conditional probability distributions, or CPDs)。它的作用简单来说就是:通过分析因果关系来理解数据。

一般而言,DAG中节点表示随机变量,包括可观测变量,或潜在变量、未知参数。连接两个节点的箭头代表这两个随机变量是具有因果关系非条件独立的;若没有箭头连接二者的情况就称随机变量彼此间条件独立。单箭头的起点是“”,终点是“”;两节点之间产生一个条件概率值

贝叶斯网络的应用包括:疾病和相关症状间的概率关系(已知症状,计算各疾病的发生概率);生物信息学中基因调控网络、蛋白质结构分析、基因表达分析等;各个领域的决策支持系统;电力故障分析,如利用因果分析技术帮助电力、能源等公司找到电力系统中的风险所在等。

贝叶斯网络是一种强有力的基于概率的不确定性推理方法。它可以模拟某个变量改变会产生什么样的结果,比如天气的改变会如何影响能源供给和购物的状况。贝叶斯网络神经网络最大区别优势是,前者的运作过程有透明性,不是黑盒子。

贝叶斯网络的计算方法

贝叶斯网络的计算方法分为精确推导法和随机推导法。前者包括列举推理法、变量消除推理法(variable elimination)。后者包括直接取样推导法、拒绝取样推导法、概率加权推导法、马尔可夫链蒙特卡罗推导法。本文介绍精确推导法中的两个方法。

列举推理法

假如有两个服务器S1和S2,会发送数据包到用户端(用U表示)。而S2的发送成功率与S1的成功与否有关。其DAG结构图表示如下。对每个数据包传输,只有两个可能值:T(成功)或 F(失败)。那么就有如下的联合概率公式:P(S1,S2,U)=P(S1)*P(S2|S1)*P(U|S1,S2)

现在思考一个问题:假设用户U已经收到数据包,那么S1发送数据成功的概率是多大?

即我们要求P(S1=T|U=T)

而已知{S1}的真值表、{S1,S2}的真值表、{S1,S2,U}的真值表,这个问题是可以直接手动推导的!

P(S1=T|U=T)推导如下:

变量消除推理法

在BN(贝叶斯网络)中,我们把Pr(X)叫做边际概率(Marginal Probability),把Pr(X|E)叫做条件概率,其中E可以是单个或联合证据(conjunctive evidence)。这里的X叫做查询变量(query variable),E叫做证据变量(evidence variable),所有其他变量都叫隐变量(hidden variable)。注意:边际概率的意思是,我们没有得到任何证据。我们通常对后验概率感兴趣,也就是某件事已经发生,想计算这件事发生的原因是由某个因素引起的概率。

现在考虑一个案例,名字叫“如果John和Mary都打电话(Call)给你,那么发生入室盗窃(Burglary)的概率是多少?”。

故事的背景如下:假如你正在参加一个聚会,突然John打电话给你,你离开聚会并接听,他说家里有警报(Alarm),但是他说的话不一定是事实(只是具有某个概率),因为他经常喝醉。然后没多久Mary打电话给你,说回家吧,家里有警报(Alarm),同样她的话可信度也对应一个概率。现在你需要弄清楚这是由入室盗窃(Burglary)引起的警报,还是由地震(Earthquake)引起的警报,或者他俩都说的谎话(喝醉产生幻觉或故意开玩笑)。

你要求的是P(B|J=True, M=True)

第一步P(B| j, m)=\frac{P(B,j, m)}{P(j, m)},其中j,m都是小写,分别表示J,M的具体值,这里是J=True, M=True

(注:大写字母表示随机变量,需要处理它的所有可能值。因此P(B| j, m)就表示当John和Mary都打电话来时,家里发生入室盗窃(Burglary)的概率是多大,未发生的概率是多大)

第二步:显然上式分母是个常数,不重要。当J为真,M为真,分母对于入室盗窃的真假,是个恒定的值。而分子P(B,j, m)将随B的取值(True或False)变化而变化。

因此我们可以简单说:P(B| j, m)与P(B,j, m)成正比。比例性的另一个说法是,乘以某个alpha,于是我们有P(B| j, m)=\alpha P(B,j, m)

第三步:注意这个例子一共有5个变量,在完全联合分布中有2^5=32个可能的组合。现在目标公式考虑了BJM三个变量,就有2^2=4个情况可以表示:(地震为真,警报为真)、(地震为真,警报为假)、(地震为假,警报为真)、(地震为假,警报为假)。我们可以写为对隐变量求和完整联合分布。于是得到:P(B| j, m)=\alpha \sum_{E,A} P(B,E,A,j, m)

第四步:根据该问题的贝叶斯网络的DAG结构,我们进一步得到P(B| j, m)=\alpha \sum_{E,A} P(B)P(E)P(A|E,B)P(j|A)P(m|A)

重点:贝叶斯网络的完整联合分布始终可以通过拓扑顺序乘以所有条件概率来表示。

第五步:进一步做代数整理,把\sum_{E,A}拆解成\sum_{E}\sum_{A}的分步求和,也就是所谓的逐步变量消除。为此,先对A求和,再对E求和,就得到:

P(B| j, m)=\alpha P(B)\sum_{E} P(E)\sum_{A}P(A|E,B)P(j|A)P(m|A)

第六步:为进一步理解上述公式,我们画一个计算图。考虑B为真(True)的场景,即要计算P(b| j, m)这个概率值,根据公式应该是P(b| j, m)=\alpha P(b)\sum_{E} P(E)\sum_{A}P(A|E,B)P(j|A)P(m|A)

假设入室盗窃发生的概率(即P(b))为0.001,地震发生的概率(即P(e))为0.002,那么地震未发生的概率(即P(¬e))为0.998;假设入室盗窃和地震都发生时,警报响的概率(即P(a|b,e))为0.95,那么此时警报不响的概率(即P(¬a|b,e))为0.05;假设入室盗窃发生而地震未发生时,警报响的概率(即P(a|b,¬e))为0.94,那么此时警报不响的概率(即P(¬a|b,¬e))为0.06;假设警报响而John打来电话的概率(即P(j|a))为0.90;假设警报响而Mary打来电话的概率(即P(m|a))为0.70;假设警报不响而John打来电话的概率(即P(j|¬a))为0.05;假设警报不响而Mary打来电话的概率(即P(m|¬a))为0.01。那么,就得到如下的贝叶斯网络概率图,其中含“+”的圈圈表示求和节点(即∑),而不含“+”的圈圈表示乘法节点。

需要指出,上图底部两侧计算是重复的、冗余的,可用动态规划(DP)计算。本文不作过多讨论。

重点:在贝叶斯网络中进行计算推理的动态编程算法,就叫做变量消除(Variable Elimination)

变量消除(VE)使用名称因子(factor),因子是一个函数,VE通过按顺序消除所有变量,直到因子只剩下查询变量(Query Variable )。为了消除一个变量,必须联合包含该变量的所有因子;输出该变量对新的因子的影响之和;输出乘积形式的联合分布(Joint distribution)。

变量消除(VE)的例子

还是上面的例子,现在我们求P(J)

P(J)=\sum _{M,A,B,E}P(J,M,A,B,E)

=\sum _{M,A,B,E}P(J|A)P(M|A)P(B)P(A|B,E)P(E)

=\sum _{A}P(J|A)\sum _{M}P(M|A)\sum _{B}P(B) \sum _{E}P(A|B,E)P(E)

上式中\sum _{E}P(A|B,E)P(E)消去了E变量,是A和B的函数

因此,原式可改写为

P(J)=\sum _{A}P(J|A)\sum _{M}P(M|A)\sum _{B}P(B) f1(A,B)

上式中\sum _{B}P(B) f1(A,B)消去了B变量,是A的函数

因此,原式可改写为

P(J)=\sum _{A}P(J|A)\sum _{M}P(M|A) f2(A)

上式中\sum _{M}P(M|A) f2(A)消去了M变量,是A的函数

因此,原式可改写为

P(J)=\sum _{A}P(J|A)f3(A)

上式又消去了A变量,是J的函数

因此,原式可改写为

P(J)=f4(J)

以上展示了变量消除(VE)推理法是如何工作的线性化创建这些计算的序列,并且不断返回。

变量消除(VE)的特定数值计算

我们回到第五步的公式P(B| j, m)=\alpha P(B)\sum_{E} P(E)\sum_{A}P(A|E,B)P(j|A)P(m|A)

其中P(j|A)P(m|A)是A的函数,我们分别列出P(J|A)P(M|A)真值表,如下

表中数据和DAG中一致。

现在计算P(j|A)P(m|A)真值表,如下

我们可以把上式P(j|A)P(m|A)命名为f1,它的取值为0.63和0.005,即

我们的公式变成了P(B| j, m)=\alpha P(B)\sum_{E} P(E)\sum_{A}P(A|E,B)f1(A)

接下来对给定(E,B)的A条件概率乘以A的f1求和,即考虑\sum_{A}P(A|E,B)f1(A)

由于P(A|E,B)是一个必要的假设前提,我们直接给出真值表,如下:

解释如下:地震发生、盗窃发生,警报响的概率是0.95,警报不响的概率是0.05;地震发生、盗窃未发生,警报响的概率是0.29,警报不响的概率是0.71;地震未发生、盗窃发生,警报响的概率是0.94,警报不响的概率是0.06;地震未发生、盗窃未发生,警报响的概率是0.001,警报不响的概率是0.999。

注意\sum_{A}P(A|E,B)f1(A)是对A求和,消去A变量,因此是E、B的函数,得到:

我们把上式叫做f2(E,B),就有:

我们的公式变成了P(B| j, m)=\alpha P(B)\sum_{E} P(E)f2(E,B),显然E被求和、消去,所以它是B的函数!(当然,B只有True和False两个可能值)

现在考虑除去\alpha的部分,即P(B)\sum_{E} P(E)f2(E,B)

又已知B和E的真值表,如下

表中数据和DAG中一致。

我们得到P(B)\sum_{E} P(E)f2(E,B)的真值表如下

我们不妨把P(B)\sum_{E} P(E)f2(E,B)叫做f3(B),计算后就有

而我们的原公式变成了P(B| j, m)=\alpha f3(B)

现在思考如何把\alpha f3(B)与概率分布P(B| j, m)更好对应起来,即

可以发现f3(B)真值表的总和不为1,我们要对它进行归一化

归一化常数为0.0019,每个概率值要除以它。我们得到:

这就是我们最终要求的概率。

意思是,如果John和Mary都打电话(Call)给你,那么发生入室盗窃(Burglary)的概率是0.32!

这就是使用变量消除在贝叶斯网络中进行推理的方法。

变量消除(VE)推理法的总结

一. 每个操作只是各个因子的简单乘法,并进行累加

二. 复杂度取决于最大的因子,比如在本文的例子中是3个变量,而不是5个(因为j,m都已知);复杂度正比于变量数;和最大因子的消除顺序成指数相关;最优消除顺序的求解是N-hard问题;可以用启发式的方法求解,以及用特殊数据结构(如polytree

三. 没有魔法

polytree的相关资料

https://en.wikipedia.org/wiki/Polytree

这篇关于贝叶斯网络:利用变量消除(Variable Elimination)进行推理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/353354

相关文章

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是