论文阅读 (四)：Multi-Instance Learning by Treating Instances As Non-I.I.D. Samples (MIGraph miGraph2009)

本文主要是介绍论文阅读 (四)：Multi-Instance Learning by Treating Instances As Non-I.I.D. Samples (MIGraph miGraph2009)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

引入
1 算法提出
- 1.1 算法示例
- 1.2 MIGraph
- - 1.2.1 图核定义
  - 1.2.2 边界定义
- 1.3 miGraph
- - 1.3.1 关联矩阵
  - 1.3.2 图核定义
2 实验

引入

论文地址：https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icml09miGraph.pdf
论文出发点：包中的实例非独立同分布 (non-I.I.D.)
设计的两种方法：
1）MIGraph：明确将每个包映射为无向图 (undirected graph)，并设计一种graph kernel来区分正包和负包；
2）miGraph：通过affinity matrix来隐式地构建图，并设计一种相应的graph kernel。

1 算法提出

本文的符号表如下：

符号	含义
$\mathcal{X}$	实例空间
$\mathcal{S} = \{ (X_1, Y_1), \cdots, (X_i, Y_i), \cdots, (X_N, Y_N) \}$	给定训练集
$X_i = \{ \mathbf{x}_{i1}, \cdots, \mathbf{x}_{ij}, \cdots, \mathbf{x}_{i, n_i} \} \subseteq \mathcal{X}$	包
$Y_i \in \mathcal{Y} = \{ -1, +1 \}$	包标签
$\mathbf{x}_{ij} = [x_{ij1}, \cdots, x_{ijl}, \cdots, x_{ijd}]'$ \| $\mathbf{x}_{ij} \in \mathcal{X}$	实例
$y_{ij}$	实例标签
$x_{ijl}$	属性值
$N$	训练集大小
$n_i$	包大小
$d$	属性值个数

包的标签确定如下：
$Y_i = \begin{cases} +1, \exist \ g \in \{1, \cdots, n_i \}, \textrm{ st. } y_{ig} = +1;\\ -1, \textrm{otherwise.} \end{cases} \tag{1*}$

1.1 算法示例

1）如下图所示 (图片来自原论文并简单处理)，假设每张图对应一个包，每个用矩形框出的部分 (patch)对应一个实例，且同一颜色的patch是相似的。
在这里插入图片描述
2）如果每个patch看作是独立的样本，则上图可以抽象为下图 (图片来自原论文)。这种情况下，这三个包是相似的，因为他们拥有同样数量且相似的实例。

3）如果考虑每个patch的关系，那么前两个包则更为相似：
在这里插入图片描述

1.2 MIGraph

步骤如下：
1）为每个包构建 $\epsilon$ -graph¹：
I）对于每一个包 $X_i$ ，其中的实例看作是一个节点 (node)；
II）计算每两个node之间的的距离 (暂时记作d)；
III）如果某两个node之间的距离小于预设的阈值 $\epsilon$ ，则两者之间建立边界 (edge)；
IV）edge的权重表示两个node之间的亲密度 (affinity)，实验中初始化为非零距离的归一化倒数；

2）涉及已分类的 (categorical)属性时，使用VDM (value differene metric)²作为补充：
I）假设属性的前 $j$ 个是categorical，余下的 $(d - j)$ 个是归一化为 $[0, 1]$ 的连续值；
II）使用以下距离来计算两个实例 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 的距离：
$(\sum^j_{h = 1} {VDM} (\mathbf{x}_{1, h}, \mathbf{x}_{2, h}) + \sum^d_{h = j + 1} {| \mathbf{x}_{1, h}, \mathbf{x}_{2, h} |}^2)^{\frac{1}{2}}. \tag{2*}$
III）数值 $z_1$ 和 $z_2$ 的VDM距离表示如下：
$(z_1, z_2) = \sum^C_{c = 1} \bigg| \frac{N_{Z, z_1, c}}{N_{Z, z_1}} - \frac{N_{Z, z_2, c}}{N_{Z, z_2}} \bigg |^2, \tag{1}$ 其中 $N_{Z,z}$ 表示持有 $z$ 的 $Z$ 的长度， $N_{Z, z, c}$ 表示持有 $z$ 的 $Z$ 中数值属于第 $c$ 类的数量， $C$ 表示类别数。

理解：这里的 $Z$ 代表实例 $x$ 的前j个值组成的向量 (暂时记作 $x^*$ )， $N_{Z, z} = j$ 。
疑问：这里的类别指的是什么？
一种猜测是按照某种方式将 $x^*$ 中的值分为 $C$ 类，则 $N_{Z, z, c}$ 表示当前数值所属类别的数值数。

3）将训练包映射为图的集合，并以此构建分类器。
I）例1：使用kNN、图形距离 (graph edit distance) ³来构建分类器；
2）例2：设置一种图核、带核的分类器如SVM。

4）MIGraph使用3）中例二的方法，其图核的思想如下图 (图片来自原论文)，即通过节点核和边界核来计算两个包之间的相似性：
在这里插入图片描述

1.2.1 图核定义

给定两个包 $X_i$ 和 $X_j$ ，并将其看作为图： $G_h (\{ \mathbf{x}_{hu}\}^{n_h}_{u = 1}, \{ \mathbf{e}_{hv}\}^{m_h}_{v = 1})$ ，其中 $n_h$ 和 $m_h$ 分别是 $G_h$ 中节点和边界的个数，则图核定义如下：
$k_G (\mathbf{x}_i, \mathbf{x}_j) = \sum^{n_i}_{a = 1} \sum^{n_j}_{b = 1} k_{node} ( \mathbf{x}_{ia}, \mathbf{x}_{jb}) + \sum^{m_i}_{a = 1} \sum^{m_j}_{b = 1} k_{edge} ( \mathbf{e}_{ia}, \mathbf{e}_{jb}), \tag{2}$ 其中 $k_{node}$ 和 $k_{edge}$ 是正半定核 (positive semidefinite kernels)。
为了避免数值问题， $k_G$ 标准化如下：
$k_G (\mathbf{x}_i, \mathbf{x}_j) = \frac{k_G (\mathbf{x}_i, \mathbf{x}_j)}{\sqrt{k_G (\mathbf{x}_i, \mathbf{x}_i)}\sqrt{k_G (\mathbf{x}_j, \mathbf{x}_j)}}. \tag{3}$
$k_{node}$ 和 $k_{edge}$ 的定义方式多样，以下用Gaussian RBF核⁴对 $k_{node}$ 进行定义：
$k_{node} (\mathbf{x}_{ia}, \mathbf{x}_{jb}) = \exp (- \gamma \parallel \mathbf{x}_{ia} - \mathbf{x}_{jb} \parallel^2). \tag{4}$ $k_{edge}$ 的定义与式 (4)类似，只是将 $\mathbf{x}_{ij}$ 替换为 $\mathbf{e}_{ij}$ 。

1.2.2 边界定义

目前的关键问题是如何定义特征向量来描述边界：
边界用于连接包 $X_i$ 中的两个节点 $\mathbf{x}_{iu}$ 和 $\mathbf{x}_{iv}$ ，将其定义为 $d_u, p_u, d_v, p_v]'$ ，其中 $d_u$ 表示 $\mathbf{x}_{iu}$ 与其他节点相连接的边界数量，需要注意的是已通过将其除以 $X_i$ 中的边界总数来进行归一化； $d_v$ 的定义与 $d_u$ 类似； $p_u$ 定义如下：
$p_u = w_{uv} / \sum w_{u, *}. \tag{3*}$ 其中 $w_{uv}$ 表示连接 $\mathbf{x}_{iu}$ 和 $\mathbf{x}_{iv}$ 的权重； $w_{u, *}$ 表示 $\mathbf{x}_{iu}$ 与其他相连接节点的权重之和； $p_v$ 的定义与 $p_u$ 类似。

1.3 miGraph

如公式 (2)， $k_G$ 是一个正定核 (positive definite kerne)，显然， $k_G$ 满足图核定义所需考虑的四个主要性质⁵
且可以用于任意的图，不足之处在于时间复杂度为 $O (n_in_j + m_im_j)$ 。对此，“我们”提出了一种更为简单高效的核，即miGraph。

1.3.1 关联矩阵

对于包 $X_i$ 中的两个实例之间的距离，“我们“可以通过构建关联矩阵 $W^i$ (affinity matrix)来计算。例如，如果两个实例 $\mathbf{x}_{ia}$ 和 $\mathbf{x}_{iu}$ 之间的距离小于给定阈值 $\delta$ ， $W^i$ 的第 $a$ 行第 $u$ 列元素 $w^i_{au}$ 将设置为1，反之为0。

1.3.2 图核定义

本文中，距离的度量使用Gaussian距离， $\delta$ 设置为包中的平均距离：
给定两个包 $X_i$ 和 $X_j$ ，分别包含 $n_i$ 和 $n_j$ 个实例实例，则图核的定义如下：
$k_g (X_i, X_j) = \frac{\sum \limits^{n_i}_{a = 1}\sum \limits^{n_j}_{b = 1} W_{ia} W_{jb} k (\mathbf{x}_{ia}, \mathbf{x}_{jb})}{\sum \limits^{n_i}_{a = 1} W_{ia} \sum \limits^{n_j}_{b = 1} W_{jb}}, \tag{5}$ 其中 $W_{ia} = 1 / \sum^{n_i}_{u = 1} w^i_{au}$ ， $W_{jb} = 1 / \sum^{n_j}_{v = 1} w^j_{bv}$ ， $(\mathbf{x}_{ia}, \mathbf{x}_{jb})$ 的定义类似于式 (4)。

$k_g$ 应满足以下原则：
$W_{ia} = \begin{cases} 1, W^i = \boldsymbol{I};\\ 1 / n_i, W^i = \boldsymbol{E};\\ 1 / n_{ia}, W^i = \boldsymbol{C},\\ \end{cases} \tag{4*}$ 其中 $\boldsymbol{I}$ 为单位矩阵； $\boldsymbol{E}$ 为全为1的矩阵； $\boldsymbol{C}$ 为分块矩阵，即包中的实例被聚类为几块， $n_{ia}$ 为 $\mathbf{x}_{ia}$ 所属块的大小。此外， $w^i_{ab}$ 的值增加或减少时， $W_{ia}$ 和 $W_{ib}$ 应当相应增加或减少，其他情况则不受影响。
显然 $k_g$ 的时间复杂度为 $O (n_in_j)$

2 实验

数据集类型	实验类型	实验结果展示
benchmark数据集	10次10CV	分类精度 + 标准差
image categorization	5次随机划分(数据集的每一个类别随机二划分，实验类型为one-against-one)	95%置信区间
text categorization	10次10CV	分类精度 + 标准差
regression (artificial)	LOO	平方损失

Tenenbaum, J. B., de Silva, V., & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290, 2319–2323. ↩︎
Stanfill, C., & Waltz, D. (1986). Toward memory-based reasoning. Comm. ACM, 29, 1213–1228. ↩︎
Neuhaus, M., & Bunke, H. (2007). A quadratic programming approach to the graph edit distance problem. Proc. 6th IAPR Workshop on Graph-based Represent. in Patt. Recogn. (pp. 92–102). ↩︎
Gärtner, T. (2003). A survey of kernels for structured data. SIGKDD Explorations, 5, 49–58. ↩︎
Borgwardt, K. M., & Kriegel, H.-P. (2005). Shortest-path kernels on graphs. Proc. 5th IEEE Intl. Conf. Data Min. (pp. 74–81). ↩︎

这篇关于论文阅读 (四)：Multi-Instance Learning by Treating Instances As Non-I.I.D. Samples (MIGraph miGraph2009)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！