基于视觉关注度的图像情感分类算法

本文主要是介绍基于视觉关注度的图像情感分类算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

现有的图像情感分类算法，往往无差别地利用整幅图像的所有信息提取特征，而忽略了不同图像区域对最终情感分类的不同贡献。因此，提出基于视觉关注度的图像情感分类方法，该算法通过将视觉关注度引入到图像情感分类中，从而强调不同区域对图像情感分类的相对重要性，进一步提升了深度网络在图像情感分类上的表现。

1.视觉关注度概述

视觉关注度的目的在于记录人眼的移动，具体来说就是，当我们人眼感知到一幅画面的时候，我们会移动我们的眼睛，让我们的目光聚集到视野范围内的某一特殊区域，对其进行仔细地感知，从而获取更多的细节信息。
随着深度学习的发展，人们不再局限于直接使用显著性检测结果作为视觉关注度在预处理阶段处理图像，而是开始更多地考虑如何将视觉关注度概念直接融合到深度网络之中，根据具体的任务通过学习确定不同区域的相对重要性。

2.基于视觉关注度的图像情感分类算法

虽然视觉关注度与深度网络相结合，被广泛应用于多媒体与计算机视觉领域，但是却几乎没有相关工作被应用于图像情感分类之中。根据我们之前的分析，图像情感分类中，特征表达是其关键。恰当地在表达过程中引入视觉关注度概念，即强调不同区域对于分类的相对重要性，则是提升特征表征能力的方法之一。图展示了基于视觉关注度的图像情感分类的主要算法流程图，从图中可以看出，视觉关注度的估计是其中的重要内容之一。

2.1基于图像显著性的图像情感分类算法

提出将图像显著性结果作为视觉关注度的估计，并将其用于对深度网络提取的局部特征的融合中，从而提升深度网络在图像情感分类上的表现。给出了具体的算法结构图，其中主要包含两个深度网络，分别用于图像区域特征的提取以及视觉关注度的估计，最终两者结合给出最终特征表达，用于图像情感分类。值得一提的是，两者可以完美融合成一个端到端的网络，因而，可以对整个网络进行联合训练。

2.2基于视觉关注度自学习的图像情感分类算法

从卷积神经网络中抽取卷积层的特征，作为图像的局部特征。采取了近些年来在多媒体与计算机视觉领域取得出色成绩的卷积神经网络模型VGGNET来作为我们图像特征抽取的基础模型。
搭建了一个多尺度的全卷积结构，该网络可以利用多尺度的特征图信息，来生成显著性图。如图所示，该多尺度的全卷积网络以16层VGGNET为基础，在其上面进行改进而来。具体来讲，原16层VGGNET中的全连接层，被转化成卷积核尺寸为１*１的卷积层。为了使得到的特征图更稠密，我们将池化层POOL4与POOL5的池化步长从２缩减为１来使得特征图有足够大的分辨率。此外，在VGGNET的基础上，输入图像以及前四个池化层，也就是POOL1、POOL2、POOL3、POOL4的后面，都分别连接了３个卷积层，这三个卷积层分别具有128个３*３的卷积核，128个１*１的卷积核，以及１个ｌ*１的卷积核。而VGGNET最终的输出后面，则连接了１个具有１个１*１卷积核的卷积层。不难发现，受限于附加卷积层之前的特征图尺寸不同，以及附加卷积层本身结构的差异，最终附加卷积层输出得到的６个特征图具有不同的分辨率。为此，在附加卷积层最终的输出后面，我们加入了插值层，通过插值，使得它们输出的分辨率得到统一。最后，我们将６个相同分辨率的特征图堆叠在一起，通过一个具有１*１卷积核的卷积层，得到一个单通道的输出。值得一提的是，在此输出之后，一个Sigmoid激活函数以及一个Softmax激活函数作用其上，得到最终归一化的视觉关注度结果Si。具体来说，该模块是在专门用于图像显著性检测的数据集MASR-B上训练而来，在我们情感分类的网络中，其用于提供视觉关注度的估计值，而在整个图像情感网络训练时，其参数是固定不变的。

取到图像的特征图Fi，以及来自图像显著性图的视觉关注度图Si后，我们通过加权每个区域的特征得到最终的图像特征表示

然后，该特征表示被直接输入到一个带有Softmax激活函数的全连接层中进行图像情感分类。

总的来说，整个基于图像显著性的图像情感分析算法的训练流程如下：
输入：训练数据集{Ii}，初始化深度网络参数 $\Theta$ 以及学习率，以及设定最大的迭代次数Ｔ以及当前迭代次数ｔ=１。
执行以下步骤，直到t>T：
１）从所有训练数据中采样，获取训练的batch。
２）通过网络计算区域特征图Fi。
３）通过网络计算图像显著性图作为视觉关注度分布Si。
４）结合Fi和Si；跟计算加权后的图像特征表示。
５）预测图像情感，并根据损失函数计算当前误差。
６）反向传播误差到每一层，并更新层中对应的参数。

2.2基于视觉关注度自学习的图像情感分类算法

基于图像显著性检测的视觉情感分类算法，取得了一定的效果，但是其仍存在一定的问题。图像显著性检测虽然一定程度上展示了不同区域的相对重要性，但是其表征相对重要性的权值分布并不一定完美适合于图像情感分类，也就是说，权值的相对大小，并不一定能够完全准确地体现出不同区域对于图像情感的相对重要性。基于这个原因，我们提出了基于视觉关注度自学习的图像情感分类算法，我们希望视觉关注度是图像情感分类网络中的一个通过有监督训练得到的模块，能够在图像情感预测中，根据所得的区域特征，自动生成对应的权重大小。

将图像显著性检测与视觉关注度自学习结合起来，也就是说，我们以图像显著性检测结果为基础，设计一个正则项，图像显著性通过作为一个先验知识，来指导视觉关注度的学习，从而可以得到一个更加合理的视觉关注度模型。图展示了带有基于图像显著性的正则项的视觉关注度自学习图像情感分类网络框架。