【论文阅读笔记】Visual Sentiment Prediction Based on AutomaticDiscovery of Affective Regions

本文主要是介绍【论文阅读笔记】Visual Sentiment Prediction Based on AutomaticDiscovery of Affective Regions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主题:视觉情感分析

贡献:

a)提出了一个深度框架,用于自动发现图像的情感区域,这些区域很可能会引发重要的情绪信息。该框架不依赖于图像中的对象类别,也不需要对边界框注释,比现有方法更加通用。

b)使用CNN构建视觉情感预测模型,该模型利用来自全局图像和局部图像区域的整体和局部信息。实验证明,最终得到的表达特征有助于视觉情感分类,在情感数据集的表现优于前人的方法。

c)实验结果表明,本文提出的框架可以通过迁徙学习推广到小规模数据集。

方法详述:

模型框架如上图所示,作者提出利用图片局部细节及全局信息来分析视觉情感,引入了图片中的情感区域(AR)的概念,包含两个显著特征:

1.AR是一个显著区域,可能包含一个或多个对象,能够吸引人们的注意力

2.AR传达了重要的情感

A.产生候选AR

1)生成候选区。在计算机视觉中,检测具体对象,如狗,车等,已经做的很好了,然而对抽象概念的建模还存在很大的挑战,如娱乐,兴奋等。困难来自于低级别的视觉特征和高级别的情感表达间的“情感鸿沟”。有研究已经证明,将形容词与具体对象联系起来可以使组合的视觉概念更易于检测和处理视觉情感分析。受对象和情绪之间强烈的共现关系的启发,提出可以将对象区域用作潜在的情感区域。

由于框架将候选对象作为输入,最后的预测结果是融合每个AR和整体特征的预测结果,所以模型的性能很大程度上依赖AR的质量。然而这是困难的,因为有效的候选区不仅需要检测物体而且需要检测到能够影响情绪的背景。有两个需要满足的标准:

1.提出的框架是基于这样的假设:候选区域可以覆盖图像中影响情感的对象以及部分背景,这需要高检测召回率。

2.候选AR将输入到CNN,所以候选数量应该限制在一定数量内,以便在保证准确率的情况下提升效率。

对象候选检测方法已经很完善了,权衡效率和性能,作者选择EdgeBoxes【56】方法生成候选集。该方法能在一秒内生成数千个候选框,随后将使用对象边界估计的方法来提升定位性能。对给定的图像I,通EdgeBoxes得到一组具有对象分数的候选边界框表示为:

2)选择和过滤。为了得到物体检测的高召回率,Zitnick【56】使用了自底向上的策略,生成数千个候选集。然而对情感分析来说大部分候选框严重重复和冗余的。因此要过滤掉对情绪影响很小的噪声候选框,且在算法的初始阶段就要移除噪声区域,这样可以减少后续步骤的计算时间。为了达到这个目的,作者介绍了一种候选框选择模型,灵感来自于【63】。

首先我们检查具有相同几何特征的候选框,然后凭经验滤除小候选框(像素<800),和宽高比大于阈值(6)的区域,因为太小或太长的物体不太可能吸引人们的注意力。作者为每张图片构造了一个亲和力矩阵W,即每一对候选框的intersection-over-union (IoU):。之后用normalized cut algorithm将候选框分为m个组,如下图所示,候选框先过滤掉太小太长的,之后再分为m组,并分别计算每组内候选框的得分(w),最后产生m个候选框。

B.检测AR

1)初始化框架。作者使用在ImageNet预训练过的16层的VGGNet,并先用其他情感数据集(e.g., Flickr and Instagram)做预训练进行微调(不带候选框)。

2)评估候选框情绪得分。将候选框输入CNN,输出该候选框预测每种情绪(label)的概率,如果每种情绪的概率相似,说难以区分候选框对情绪的影响,因此,主要是保留那些能区分情绪的候选框。作者定义了概率抽样函数来评估候选框的情绪得分:

,其中c是情绪类别数,i指第i个候选框,j指第j类情绪。对二分类来说得分在0到1之间,公式中的信息熵代表预测情绪的确定程度,这与候选框的情绪得分的思想是一致的。相比于传统方法,该公式在高层次上提供了更多的语义评估。

3)选择AR。通过两个标准选择:Obj_score和Senti_score。原因是前者基于纹理外观仅评估了候选框内包含对象的概率,缺少情感信息。后者在情感方面上反映了图像所传达的情绪。这将移除对情感预测带来小影响的噪声。这样的评分方式允许对象区域拥有一定的灵活性,在背景候选框也有体现。用下式评估AR质量:

其中α控制了低级别和情感级别视角之间的权衡。在本文中, 通过大规模情感数据库的交叉验证来选择α。得高分的AR被留下,得分低的被剔除。

其中Obj_score在生成候选框的时候就会同时产生。

C.情感分类

整个框架的分类过程大致如下:给定一组图片,首先使用EdgeBoxes得到候选框,接着使用IoU分数和归一化切割来筛选,保留最好的候选框们。同时考虑对象分数和情绪分数用于选择可能吸引人们注意力并包括情绪内容的有效区域。将保留的候选框和整体图片分别输入到预训练好的CNN得到最终结果并融合。融合方式考虑了3个策略:最大池化,求和池化,和级联。最大池化能够保留包含情感的候选者的高预测分数,并忽略噪声。表达式:

求和池化融合所有候选框的预测结果,能够强调具有一致性候选框(代表同种情绪)的权重。

其中β是全局和局部预测之间的权衡.β也是通过大规模情感数据集的交叉验证来估计的。max pooling和sum pooling都可以生成情绪概率作为最终预测。

级联是一种简单而有效的方法,通过结合特征得到一个综合性的表示特征。。,Y共有(K+1)Xc维,然后用SVM进行分类。

数据集:采用了多个数据集做评测。本文考虑的是二分类,即将情感表达为积极和消极。所以有些数据集里是多分类,作者把多分类按照消极和积极重新划为两类。

实验结果:

[56] C. L. Zitnick and P. Doll ar, “Edge boxes: Locating object proposals from edges.” in Proc. Eur. Conf. Comput. Vis. , 2014, pp. 391–405.

[63] Y. Weiet al., “HCP: A flexible CNN framework for multi-label image classification,” vol. 38, no. 9, pp. 1901–1907, Sep. 2016.

这篇关于【论文阅读笔记】Visual Sentiment Prediction Based on AutomaticDiscovery of Affective Regions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/594048

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个