（《机器学习》完整版系列）第7章贝叶斯分类器——7.6 贝叶斯网（也称信念网）结构（网络结构也是“超参数”）、贝叶斯图络学习（两级搜索法）

本文主要是介绍（《机器学习》完整版系列）第7章贝叶斯分类器——7.6 贝叶斯网（也称信念网）结构（网络结构也是“超参数”）、贝叶斯图络学习（两级搜索法），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

贝叶斯网是关于属性的，有向线表示“依赖”性的父子关系；通过属性的条件概率表CPT来描述。
有向图转化为无向图：让两亲联姻（连接两结点），称为道德化。
网络结构也是“超参数”，如何选择该“超参数”？
贝叶斯图络学习：两级搜索法

贝叶斯网结构

贝叶斯网（也称信念网）记为 $B=<G,\Theta >$

结构 $G$ ：是一个有向无环图DAG，每个结点对应于一个属性（记住：贝叶斯网是关于属性的，不少同学错记成关于样本的），有向线表示“依赖”性的父子关系；
参数 $\Theta$ ：是属性的条件概率表CPT，表中的项为
$\begin{align} {\theta}_{x_i\,|\,{\pi}_i } =P_B(x_i\,|\,{\pi}_i ) \tag{7.39} \end{align}$
其中， ${\pi}_i$ 为 $x_i$ 的父结点集，概率符号 $P_B$ 的下标表示是在网结 $B$ 中。

假定每个属性与其非后裔属性独立，
由此定义属性的联合分布为
$\begin{align} P_B(x_1, x_2,\cdots,x_d) & =\mathop{\prod }\limits_{i=1}^dP_B(x_i\,|\,{\pi}_i ) \tag{7.40} \\ & =\mathop{\prod }\limits_{i=1}^d {\theta}_{x_i\,|\,{\pi}_i } \tag{7.41} \end{align}$
其中， ${\theta}_{x_i\,|\,{\pi}_i }$ 需要查表，而表有时不是直接给出的，要通过对数据集 $D$ 中的样本情况进行分门别类地“计数”统计，计算频率来估计的。

【西瓜书图7.3】描述了贝叶斯网中三种依赖关系，并讨论了独立性。

给定一个结点的值，相当于把这个结点染上了黑色（即不能再变化），以此技巧来思考“给定结点值”的情况，则易于理解，如下以生物学的例子来增强记忆。

如图7.1所示， $V$ 型结构是双性繁殖（ $V$ 型结构的记忆口诀：自由恋爱好独立，奉子成婚难独立）\tacg{ch7:marr}，当 $x_1,x_2$ 的孩子 $x_3$ 的肤色性状已经确定（如，黑白混血小孩），那么，当 $x_1$ 为白人时， $x_2$ 应为黑人，反之亦然。故孩子 $x_3$ 的性状给定时，双亲 $x_1$ 与 $x_2$ 的性状不独立。
图7.1 V型结构

图7.1 V型结构

$V$ 型结构中， $x_1$ 与 $x_2$ 可以“自由恋爱”（即独立）生出孩子 $x_3$ 。即在不给定“共子” $x_3$ 的值时，其父母 $x_1,x_2$ 是独立的，
理论上由【西瓜书式(7.27)】所验证，称为边际独立，记为 $x_1 \perp \!\!\! \perp x_2$ 。
注：求和符号起边际化的作用，就像在二维表中，对行（或列）求和（即通常的小计），写到最右“边”（边上加一列）（或最下“边”（加一行））中。

如图7.2左侧所示，在同父结构中，若父 $x_1$ 已知（父 $x_1$ 被染黑色）时，单性繁殖了两兄弟 $x_2$ 与 $x_3$ ，影响两兄弟特质变化的外因 $x_1$ 已定，即已体现在两兄弟身上了，不再变化，而再变化的是各自的内因，内因引起的变化当然是独立的。即变化是条件独立（记忆口诀：单性繁殖两兄弟，内因变化是独立，条件是外因已一致），记为 $x_2\, \bot \, x_3\, |\, x_1$ 。
在这里插入图片描述

图7.2 同父结构

如图7.2右侧所示，在同父结构中，若父 $x_1$ 未知（父 $x_1$ 未被染色）时，则
$\begin{align} P(x_2,x_3) & =\sum_{x_1}P(x_1,x_2,x_3)\notag \\ & =\sum_{x_1}P(x_1)P(x_2\,|\,x_1)P(x_3\,|\, x_1,x_2)\notag \\ & \neq \sum_{x_1}P(x_1)P(x_2\,|\,x_1)P(x_3)\notag \\ & = P(x_3)\sum_{x_1}P(x_1)P(x_2\,|\,x_1)\notag \\ & =P(x_3)\sum_{x_1}P(x_1,x_2)\notag \\ & =P(x_3)P(x_2) \tag{7.42} \end{align}$
不等式(7.42)表明此时 $x_2$ 与 $x_3$ 不独立，称为 $x_2$ 与 $x_3$ 关于 $x_1$ 的边际独立不成立。

按如下方法将有向图转化为无向图：

对 $V$ 型结构，让两亲联姻（连接两结点），称为道德化（哈哈，孩子都有了，结婚吧！）；
将所有有向边改为无向边；

这样生成的图称为道德图。

在道德图中，若去掉一些结点（结点集 $\mathbf{z}$ ）后，使得结点 $x$ 和 $y$ 不再连通，则称 $x$ 与 $y$ 被 $\mathbf{z}$ 有向分离（注：这里"directed"翻译成了“有向”，若翻译成“受控的”，则为“受控分离”，这更贴切），记为： $x\, \bot \, y\, |\, \mathbf{z}$ ，即在 $\mathbf{z}$ 的控制下， $x$ 与 $y$ 独立。当集合 $\mathbf{z}$ 退化成一个结点 $z$ 时，即为前述的条件独立： $x\, \bot \, y\, |\, z$ 。

贝叶斯图络学习

当网络结构已知时（即有向图的父子关系已知），则训练分类器的步骤为

通过对训练集 $D$ 中的样本分门别类地“计数”，统计出条件概率表CPT；
由【西瓜书式(7.26)】得到属性的联合概率分布 $P(\boldsymbol{x})$ 及 $P(\boldsymbol{x},c)$ ；
由【西瓜书式(7.7)】求得 $P(c\,|\,\boldsymbol{x})$ ；
最后由【西瓜书式(7.6)】得到学习器 $h^*(\boldsymbol{x})$ 。

然而，在现实中，通常不知道网络结构，只有训练集 $D$ 的数据，这时，将网络结构视为“超参数”。下面讨论如何选择该“超参数”：

（1）先给定对网络结构评价的偏好，如，最小描述长度（MDL），即找一个能以“最短编码长度”契合训练数据的模型：

契合训练数据指应符合极大似然法的要求，即 $\max \mathrm{LL}(B\,|\,D)$ ；
贝叶斯网络 $B$ 的规模 $|\, B\, |$ （即参数 $\theta$ 的个数），设描述一个参数 $\theta$ 的编码长度为 $f(\theta )$ ，则应要求 $\min f(\theta )|\, B\, |$ ；

由上述两点即可构造出一个评分函数（以求 $\min$ 为目标）
$\begin{align} s(B\,|\,D)=f(\theta )|\, B\, |-\mathrm{LL}(B\,|\,D) \tag{7.43} \end{align}$

针对式(7.43)中的第一项，我们看三种特殊情况：

取 $f(\theta )=1$ ，得到评分函数AIC【西瓜书式(7.30)】；
取 $f(\theta )=\frac{1}{2}{\log} m$ ，得到评分函数BIC【西瓜书式(7.31)】；
取 $f(\theta )=0$ ，则评分函数退化为（负）极大似然估计。

针对式(7.43)中的第二项，我们进行分解
$\begin{align} \mathrm{LL}(B\,|\,D) & ={\log} P(D\,|\,B)\qquad \text{（对数似然）}\notag \\ & ={\log} P_B(D)\qquad \text{（为明确起见，换个概率符号）}\notag \\ & ={\log} P_B(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m)\quad \text{（$\boldsymbol{x}_i$为样本）}\notag \\ & ={\log} \mathop{\prod}\limits_{i=1}^m P_B(\boldsymbol{x}_i)\quad \text{（由样本的独立性）}\notag \\ & =\mathop{\sum}\limits_{i=1}^m {\log} P_B(\boldsymbol{x}_i)\tag{7.44} \end{align}$
$\begin{align} \quad P_B(\boldsymbol{x}_i) & =P_B(\boldsymbol{x}_i^1,\boldsymbol{x}_i^2,\cdots,\boldsymbol{x}_i^d)\notag \\ & =\mathop{\prod}\limits_{k=1}^m{\theta}_{x_i^k\,|\,{\pi }^k}\quad \text{（由式(7.41)，下标改为上标$k$）}\tag{7.45} \end{align}$
其中， ${\theta}_{x_i^k\,|\,{\pi }^k}=P_B({x_i^k\,|\,{\pi }^k})$ ，下标表示样本编号，上标表示属性编号， ${\pi }^k$ 为第 $k$ 个属性的父结点集（与样本无关，故它不带下标）。

因 $B$ 不知，而 $D$ 已知， $B$ 要求契合于 $D$ ，故应
$\begin{align} {\theta}_{x_i^k\,|\,{\pi }^k}=\hat{P}_D({x_i^k\,|\,{\pi }^k}) \tag{7.46} \end{align}$
其中，右侧为 $D$ 上的经验分布，它可通过对 $D$ 中的样本进行分门别类地“计数”，统计频率来估算。

问题又来了： ${\pi }^k$ 并不知道，无从“分门别类”。也说是说：只有在 $k$ 属性结点之父 ${\pi }^k$ 确定了，才可依上述讨论求出 $s(B\,|\,D)$ 。

综上， $\max \mathrm{LL}(B\,|\,D)$ 变为一个“两级搜索”问题：

第一级：试不同的网络结构：找一个网络结构 $G$ 。网络结点（样本属性）已知，但边的情况是部分已知，部分未知，通常根据领域知识以及偏好，将网络结构限定为某种特殊的结构（如，树形结构），称为约束法。
第二级：调整有向边：在这个网络结构中，试不同的 ${\pi }^k$ （父子关系）来调整网络。采用贪心法：每次调整一条边（增边，减边，调边的方向），若 $s(B\,|\,D)$ 降低，则接受该调整。继续调整，直到 $s(B\,|\,D)$ 不再降低或搜索完或达到某设定的停机条件为止。