斯坦福Machine Learning with Graphs 学习笔记(第二讲）

本文主要是介绍斯坦福Machine Learning with Graphs 学习笔记(第二讲），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作者：于媛，十三鸣

本文长度为3300字，建议阅读10+分钟

本文为大家介绍常用的网络属性和经典的网络模型。

[ 导读 ]在研究网络的时候，我们往往需要从结构层面对网络进行分析，网络属性可视为对网络结构的静态刻画，而网络模型则能帮助我们从动态的网络生成的过程了解网络结构。这节我们主要介绍一些常用的网络属性和一些经典的网络模型。

一、网络属性(Network Properties)

二、Erdös-Renyi Random Graph Model

三、Small-World Model

四、Kronecker Graph Model

五、Stochastic Kronecker Graph Model

一、网络属性(Network Properties)

1. 度分布（degree distribution）P(k)

度分布指的是对一个图（网络）中顶点（节点）度数的总体描述。对于随机图，度分布指的是图中顶点度数的概率分布。

Nk表示度数为k的节点， N表示网络中度的总数，则度分布为：

通常我们用直方图的形式来表示图的度分布，如下图：

2. 路径（path） Pn

路径指一个顶点序列，使得从它的每个顶点有一条边到该序列中下一顶点。一条道路可能是无穷的，但有限道路一定会有一个最先的顶点（称为起点）和最后的顶点（称为末点），即路径的端点。同时，路径也可以经过一个点多次，比如：ACBDCDEG。

3. 距离（distance）h

两个节点间最短的路径称为这一对节点的距离。注意如果两个点不相连，则规定距离是无限大或者是0。

在有向图中，距离必须是带方向的。举例说明，在有向图中，和不同，因为可能出现B、C直接连接，但是从C到B需要经过A节点的情况。

4. 直径（diameter）

图的直径是整个图中节点间距离的最大值。对于一个连通图或者强连通的有向图，平均路径长度公式是：

其中代表从节点 i 到节点 j 的距离，表示最大边数（其中 n 表示节点数）

注意：我们计算平均路径的前提条件是节点对都是可达的，否则不能纳入计算（不可达的节点对的距离为无穷大），这个方法也适用于强连通图。

5. 集聚系数（clustering coefficient）C

集聚系数描述一个无向图中的顶点之间结集成团的程度。具体指是节点的邻接点间相互连接的程度。对于节点，集聚系数可以表示成：

其中，式子中ei表示节点 i 的邻居之间的边数，ki表示节点 i 的度（即节点 i 的邻居数），分母ki(ki-1)中的表示邻居间的最大边数。

集聚系数计算实例如下：

具体计算过程分别为：

很多时候也可用平均集聚系数（Average clustering coefficient）来表示一个网络的集聚系数：

平均集聚系数的计算实例如下：

6. 连通元件（connected components）S

连通元件又称为元件、分量或分支，是一个无向子图，在元件中的任何两个顶点都可以经由该图上的边抵达另一个顶点，且没有任何一边可以连到其他子图的顶点。

找到连通元件的算法：

从任意一点开始进行广度优先遍历（BFS）；
对访问过的节点进行标记；
如果所有节点都被访问过了，整个网络就是都是连通的；
否则找到一个未被访问的节点重新进行广度优先遍历。

了解了这些基本的网络属性之后，要如何应用它们呢？接下来，我们结合网络模型，应用上述网络属性进行具体分析，加深对网络属性和网络构成的认识。

这里主要介绍三个常用的随机网络模型：ER随机图模型（Erdös-Renyi Random Graph Model）、小世界模型（Small-World Model）和Kronecker图模型（Kronecker Graph Model）。

二、Erdös-Renyi Random Graph Model

“随机”的概念频繁应用于各类模型的构建，网络模型的构建同样关注这一概念。ER随机图模型作为网络模型中的经典模型，在提出后的很长一段时间，都是研究网络的重要数学工具。

随机图模型可由表示，具体定义如下：

：该网络包含n个节点，任一边（u,v）出现的概率为p，且为独立同分布。

值得注意的是，随机图模型生成的过程是随机的，因此并不能指定一个唯一的图。

接下来，结合上一部分介绍的网络属性对进行分析。

1. 度分布P(k)

的度分布服从二项分布(binomial distribution)，P(k)可表示如下：

2. 集聚系数系数Ci

结合集聚系数的计算公式，首先确定节点 i 邻接点间的边数ei，ei的期望可表示为。随后可得集聚系数期望值如下：

其中，为的平均度。从上述公式不难发现，随机图的集聚系数并不高。此外，若在不改变的前提下，通过不断增加节点来提升图的规模，随着图规模的增大，集聚系数将不断降低。

3. 路径长度 Path length

路径长度的计算可结合图的广度优先遍历（BFS）进行思考。首先引入扩展性a，a 计算公式如下：

对扩展性为 a，规模为 n 的网络，存在长度为O((log n/a))的路径。

随机图具有很好的扩展性，因此BFS访问所有节点需要对数步O(log n)。

结合上述特性，可知对随机图而言，存在网络图规模很大，但平均最短路径仍然很短的现象，具体情况可参考下图。

4. 连通元件

随机图模型的结果随 p 值大小的变化可总结如下图：

课程中还对比了随机图模型与真实网络结构在上述四类属性上的差异，可总结为如下四点：

随机图模型低平均路径长这一点与真实世界网络模型契合；
度分布情况存在差异；
大多数真实网络中的巨型组件不会通过相变出现；
随机图模型集聚系数极低，缺乏局部结构。

综合来看，真实网络的结构和随机图模型还有很大差距，那为什么还要研究随机图模型？主要原因如下：

随机图模型是后续课程的基础，也是重要的参考模型；
随机图模型有助于我们通过比较更深入地认识真实网络数据；
随机图模型能帮助我们理解随机过程对网络结构能够产生多大程度的影响。

三、Small-World Model

小世界模型最经典的特征是既具有规则网络的高聚集性，又具有类似随机网络的小直径。相较随机图模型，小世界模型能够更好地反映真实网络的情况。

在介绍随机网络时提到，随机网络无法解释真实网络中存在的一些情况：局部集聚（较高的集聚系数）和三元闭合（朋友的朋友是朋友）。从网络结构来看，随机网络与真实网络的一大差异便是过低的集聚系数，所以在随机网络模型基础上进行改进时，需要要着重考虑的便是——如何在保留小网络直径这一特点的同时提高集聚系数，使得构建的模型能够对网络局部结构进行更好的刻画。