《Affective Region Recognition and FusionNetwork for Target-Level Multimodal SentimentClassificati》阅读

本文主要是介绍《Affective Region Recognition and FusionNetwork for Target-Level Multimodal SentimentClassificati》阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原论文地址:https://ieeexplore.ieee.org/abstract/document/10014688/

代码地址:https://github.com/LiLi-Jia/ARFN(作者暂未上传代码)

摘要

目标级/方面级的多模态情感分类任务已经获得更多的关注。现有的方法主要依赖于将整个图像和文本结合起来,忽略了图像中的隐藏情感区域的作用。基于这个问题作者提出了ARFN模型,该模型更关注视觉和文本在向量空间中的对齐。

引言

作者首先认为文本和视觉信息是相互补充和强化的。文本内容简短,非正式,信息丰富,这种现象有可能导致目标的情绪主要由图像决定。作者在此处举了下述的例子:

作者认为如果不看图像,只看文字表达,我们会认为两条信息都是中立的情感,只有结合图片才能进行正确分类。(对于图(a)我只看文字也能看出这条新闻表达了正面的情感)。

其次作者发现,现有的大多数研究要么简单的将不同模式中提取出的特征连接起来,要么在一个粗糙的水平上学习图像,文本和目标之间的关系。作者认为这样做并不合理,因为人类的情感主要是由图像中某个区域引起的,除此之外图像的其余部分并为发挥很多作用(类似注意力机制)。如下图所示:

 

图(c)我们之所以一眼就能看出表达了积极的情感,主要与图中那个中年人的笑容有关,至于背景中的房屋等次要信息,对我们的判断影响很小。

作者基于此提出了ARFN模型。

提出的方法 

模型结构如上图所示。

总体流程:

 1.使用Yolov5模型来检测图像中的对象。随后使用在Sentiment_LDL, Emotion和EmotionRoI上预训练过的ResNet-152来对检测到的对象进行编码。随后计算每个对象的ARs_score值,并根据该值对其进行排序,公式表达如下:

Object_Score和IoU_Score是在使用Yolov5时获得的。Senti_Score是作者提出的一个可以量化情感区域特征重要性的值,其计算公式如下:

P为ResNet+SoftMax网络最后一层的输出,即预测概率。

2. 从排序完成的对象列表中取出最重要的J个对象,将其和整张图片输入到ResNet-152中进行特征提取(此处将从整张图片中提取出的特征叫做全局特征,将从J个对象中提取的特征叫做局部特征)。随后将全局特征和局部特征拼接起来后输入到MLP中进行维度的调整,输出记为RV。(此处作者并没有说清楚是如何进行结合的,因为全局特征只有一个,而局部特征有J个,我猜测此处是将全局特征与每一个局部特征进行相加。)

3.将Target输入到Bert中获得Target的word embedding,记为RT。(此处作者提到,一个Target可能会有多个单词组成,此处作者将其长度设置为K。但就按照我对该任务的理解以及文中的例子来看,多数的Target只是单独的一个单词。所以此处大部分情况下是只对单独的一个单词进行编码。)随后使用RT获得Q,使用RV生成K和V输入到多头注意力+MLP的网络结构中获得结果,最后通过stack运算进行降维,获得输出RTSV。(stack此处解释的并不清楚,结合图以及作者此处的文字表达推断此处应该是一个类似sumpooling的操作。)

4.将文本输入到Bert中进行编码。将[CLS]标记位的输出记为RText,将模型输出的word embedding部分输入到BiLSTM中获得文本特征RS。将RS与RT进行与第三步同样的处理后获得RTCR。

5.最后将RTSV,RTCR和Rtext进行拼接后输入到MLP中获得最终的分类结果。

实验数据集

Twitter-15:https://github.com/jefferyYu/TomBERT/tree/master/absa_data/twitter2015

Twitter-17:https://github.com/jefferyYu/TomBERT/tree/master/absa_data/twitter

 readme中会告诉你如何下载并处理图片。

实验结果与分析

1.通过对比实验证明了模型的有效性。

2.通过消融实验证明了模型中每个模块都是有作用的。

3.进一步的分析。(1)通过可视化说明了作者使用的ARs_score值确实能够检测出图中最重要的对象,例子如下图所示:

(2)对 ARs_score计算公式中的u以及选取的对象数量J进行了分析。发现当u=0.3,J=3时模型获得最好的效果。可视化的图如下所示:

(这种类型的图我多次看到了,好像在进行超参数分析时经常用到,后续自己也要学习下如何画出类似的图。) 

(3)验证不同的图像情绪分类预训练模型的选取对最终结果的影响(我认为此处是为了验证第一步中使用Sentiment_LDL, Emotion和EmotionRoI对ResNet-153进行预训练对结果是否有影响)。

总结

整篇文章作者并未开源代码,所以部分模型的细节智能靠文章来进行猜测,因此如果有那些地方理解错误,大家请指出来。

这篇关于《Affective Region Recognition and FusionNetwork for Target-Level Multimodal SentimentClassificati》阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/594047

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

访问controller404:The origin server did not find a current representation for the target resource

ider build->rebuild project。Rebuild:对选定的目标(Project),进行强制性编译,不管目标是否是被修改过。由于 Rebuild 的目标只有 Project,所以 Rebuild 每次花的时间会比较长。 参考:资料

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读

青云QingCloud 推出 Region 服务,帮企业轻松构建多活架构

理想情况下,企业通过使用云的方式来消除地域对业务的影响,就像我们在使用水电时,不需要关心发电厂在哪里。但是,一般来说,不同地域之间,只能通过公网联通。 为帮助用户便捷地构建高可用的业务架构,青云QingCloud 推出 Region 服务,通过对基础网络架构进行升级,实现区域( Region )内的可用区( Availability Zone )之间内网高速互联,全面提升整体服务能力。

一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对

小模型又又又卷起来了!微软开源三连发!一口气发布了 Phi 3.5 针对不同任务的 3 个模型,并在多个基准上超越了其他同类模型。 其中 Phi-3.5-mini-instruct 专为内存或算力受限的设备推出,小参数也能展现出强大的推理能力,代码生成、多语言理解等任务信手拈来。而 Phi-3.5-vision-instruct 则是多模态领域的翘楚,能同时处理文本和视觉信息,图像理解、视频摘要

深入理解计算机系统阅读笔记-第四章

第四章 处理器体系结构 一个处理器支持的指令和指令的字节级编码称为它的ISA(instruction-set architecture,指令集体系结构)。不同家族处理器有不同的ISA。ISA在编译器编写者和处理器设计人员之间提供了一个概念抽象层,编译器编写者只需要知道允许哪些指令,以及他们是如何编码的;而处理器设计者,必须建造出执行这些指令的处理器。 ISA模型看上去是顺序执行的,实际上同时处