2018 NIPS LinkNet: Relational Embedding for Scene Graph论文解读

本文主要是介绍2018 NIPS LinkNet: Relational Embedding for Scene Graph论文解读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2018 NIPS LinkNet: Relational Embedding for Scene Graph论文解读

这篇文章想解决的问题是生成scene graph问题，这个任务是基于2017年提出的数据集visual genome的新任务，scene graph如图：

对于输入的一张图像，先检测出它包含的object，并且进行分类，不仅如此还要找到他们之间的关系，然后构成scene graph（图中下半部分），同时还有local region graph任务（图中上半部分）。
基于scene graph任务作者提出了linknet方法。主要包含三个模块：relational embedding module，用于对object进行分类并且对他们的关系进行分类；global context encoding module，用于提取全局信息，尽量包含image中所有的proposal信息，用于辅助object关系的分类；geometrical layout encoding module，使用object proposal之间的空间信息，来辅助object关系的分类。
overview：

对于一张image使用目标检测方法提取object的proposal和label，使用global context encoding module对其提取全局信息，并且用多分类任务进行训练。然后使用proposal特征、label特征和context特征初始化object的表示，然后使用relational embedding module来对object进行分类（在visual genome数据集上的分类，而不是目标检测的分类），并且对object之间的关系进行分类，并且结合geometrical layout encoding module来帮助分类，最终使用这两个分类信息生成scene graph。
object分类：
初始化的object表示如下：

其中f是使用faster-RCNN处理image而得到的ROI特征，l是提取的label特征，使用K来映射到200维，c为全局特征。一共4808维。然后对N个object的特征O进行编码，在object之间传递信息：

其中W U H是参数，用于将O映射到4808/r维（其中r为超参数），R1可以看成是N个object之间的关系矩阵，然后作用到O上，O1可以看成是一个残差模块，用于更好的训练，再将O1映射到256维。再用同样的方法处理一遍O2:

最终映射到O4，当作是对N个object的分类，分类的损失：

global context encoding module：
全局特征c先是所有的RPN特征⬅️一个平均，然后可以映射到(0,1)之间的多分类概率，最终的多分类损失：

关系分类：
对O4和O3编码：

其中O4’是one-hot表示，和O3联合得到E0，然后使用relational embedding module处理一遍E0，得到E1，E1的维度是8192，前4096维可以看成是subject object的特征（因为关系用又有向边表示，是边的头），后一半是object端（边的尾）。然后编码：

其中F为N(N - 1) * 4096维，Fij是i j两个区域之间的联合特征。b是使用object空间信息得到的特征，然后映射到G2，当作为两两object的关系的分类，损失如下：

geometrical layout encoding module模块：
得到object之间的空间信息：

其中x y是坐标，w h为宽高。
最终的loss：

是object分类损失、关系分类损失和全局特征的多分类损失的加权和，可以实现端到端的训练。
实验结果如下：

可以得到在visual genome上最优的结果。
ablation study证明了各个模块的有效性：

并且可视化了object之间的关系：

可以看到得到的关系矩阵和真实的关系比较接近。
可视化生成scene graph的结果：

但本文我有两块没有懂，（1）为什么多分类可以提升全局特征的提取（2）object两两的融合特征F是怎么来的