本文主要是介绍【论文阅读笔记】Visual Sentiment Prediction Based on AutomaticDiscovery of Affective Regions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
主题:视觉情感分析
贡献:
a)提出了一个深度框架,用于自动发现图像的情感区域,这些区域很可能会引发重要的情绪信息。该框架不依赖于图像中的对象类别,也不需要对边界框注释,比现有方法更加通用。
b)使用CNN构建视觉情感预测模型,该模型利用来自全局图像和局部图像区域的整体和局部信息。实验证明,最终得到的表达特征有助于视觉情感分类,在情感数据集的表现优于前人的方法。
c)实验结果表明,本文提出的框架可以通过迁徙学习推广到小规模数据集。
方法详述:
模型框架如上图所示,作者提出利用图片局部细节及全局信息来分析视觉情感,引入了图片中的情感区域(AR)的概念,包含两个显著特征:
1.AR是一个显著区域,可能包含一个或多个对象,能够吸引人们的注意力
2.AR传达了重要的情感
A.产生候选AR
1)生成候选区。在计算机视觉中,检测具体对象,如狗,车等,已经做的很好了,然而对抽象概念的建模还存在很大的挑战,如娱乐,兴奋等。困难来自于低级别的视觉特征和高级别的情感表达间的“情感鸿沟”。有研究已经证明,将形容词与具体对象联系起来可以使组合的视觉概念更易于检测和处理视觉情感分析。受对象和情绪之间强烈的共现关系的启发,提出可以将对象区域用作潜在的情感区域。
由于框架将候选对象作为输入,最后的预测结果是融合每个AR和整体特征的预测结果,所以模型的性能很大程度上依赖AR的质量。然而这是困难的,因为有效的候选区不仅需要检测物体而且需要检测到能够影响情绪的背景。有两个需要满足的标准:
1.提出的框架是基于这样的假设:候选区域可以覆盖图像中影响情感的对象以及部分背景,这需要高检测召回率。
2.候选AR将输入到CNN,所以候选数量应该限制在一定数量内,以便在保证准确率的情况下提升效率。
对象候选检测方法已经很完善了,权衡效率和性能,作者选择EdgeBoxes【56】方法生成候选集。该方法能在一秒内生成数千个候选框,随后将使用对象边界估计的方法来提升定位性能。对给定的图像I,通EdgeBoxes得到一组具有对象分数的候选边界框表示为:。
2)选择和过滤。为了得到物体检测的高召回率,Zitnick【56】使用了自底向上的策略,生成数千个候选集。然而对情感分析来说大部分候选框严重重复和冗余的。因此要过滤掉对情绪影响很小的噪声候选框,且在算法的初始阶段就要移除噪声区域,这样可以减少后续步骤的计算时间。为了达到这个目的,作者介绍了一种候选框选择模型,灵感来自于【63】。
首先我们检查具有相同几何特征的候选框,然后凭经验滤除小候选框(像素<800),和宽高比大于阈值(6)的区域,因为太小或太长的物体不太可能吸引人们的注意力。作者为每张图片构造了一个亲和力矩阵W,即每一对候选框的intersection-over-union (IoU):。之后用normalized cut algorithm将候选框分为m个组,如下图所示,候选框先过滤掉太小太长的,之后再分为m组,并分别计算每组内候选框的得分(w),最后产生m个候选框。
B.检测AR
1)初始化框架。作者使用在ImageNet预训练过的16层的VGGNet,并先用其他情感数据集(e.g., Flickr and Instagram)做预训练进行微调(不带候选框)。
2)评估候选框情绪得分。将候选框输入CNN,输出该候选框预测每种情绪(label)的概率,如果每种情绪的概率相似,说难以区分候选框对情绪的影响,因此,主要是保留那些能区分情绪的候选框。作者定义了概率抽样函数来评估候选框的情绪得分:
,其中c是情绪类别数,i指第i个候选框,j指第j类情绪。对二分类来说得分在0到1之间,公式中的信息熵代表预测情绪的确定程度,这与候选框的情绪得分的思想是一致的。相比于传统方法,该公式在高层次上提供了更多的语义评估。
3)选择AR。通过两个标准选择:Obj_score和Senti_score。原因是前者基于纹理外观仅评估了候选框内包含对象的概率,缺少情感信息。后者在情感方面上反映了图像所传达的情绪。这将移除对情感预测带来小影响的噪声。这样的评分方式允许对象区域拥有一定的灵活性,在背景候选框也有体现。用下式评估AR质量:
其中α控制了低级别和情感级别视角之间的权衡。在本文中, 通过大规模情感数据库的交叉验证来选择α。得高分的AR被留下,得分低的被剔除。
其中Obj_score在生成候选框的时候就会同时产生。
C.情感分类
整个框架的分类过程大致如下:给定一组图片,首先使用EdgeBoxes得到候选框,接着使用IoU分数和归一化切割来筛选,保留最好的候选框们。同时考虑对象分数和情绪分数用于选择可能吸引人们注意力并包括情绪内容的有效区域。将保留的候选框和整体图片分别输入到预训练好的CNN得到最终结果并融合。融合方式考虑了3个策略:最大池化,求和池化,和级联。最大池化能够保留包含情感的候选者的高预测分数,并忽略噪声。表达式:
求和池化融合所有候选框的预测结果,能够强调具有一致性候选框(代表同种情绪)的权重。
其中β是全局和局部预测之间的权衡.β也是通过大规模情感数据集的交叉验证来估计的。max pooling和sum pooling都可以生成情绪概率作为最终预测。
级联是一种简单而有效的方法,通过结合特征得到一个综合性的表示特征。。,Y共有(K+1)Xc维,然后用SVM进行分类。
数据集:采用了多个数据集做评测。本文考虑的是二分类,即将情感表达为积极和消极。所以有些数据集里是多分类,作者把多分类按照消极和积极重新划为两类。
实验结果:
[56] C. L. Zitnick and P. Doll ar, “Edge boxes: Locating object proposals from edges.” in Proc. Eur. Conf. Comput. Vis. , 2014, pp. 391–405.
[63] Y. Weiet al., “HCP: A flexible CNN framework for multi-label image classification,” vol. 38, no. 9, pp. 1901–1907, Sep. 2016.
这篇关于【论文阅读笔记】Visual Sentiment Prediction Based on AutomaticDiscovery of Affective Regions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!