【论文阅读】Fusing Audio, Visual and Textual Clues for Sentiment Analysis from Multimodal Content

本文主要是介绍【论文阅读】Fusing Audio, Visual and Textual Clues for Sentiment Analysis from Multimodal Content,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Motivations

随着社交媒体的普及,用户倾向于用视频来表达他们对产品的看法,因此,单单只对文本进行情感识别已经满足不了现在的智能系统,而且视频数据中可能包含更多的线索,视频中的音频数据表达的是说话者的语气,而视觉数据传递的是面部表情,这反过来有助于理解用户的情感状态。

因此作者提出了一种新的多模态情感分析方法,从音频、视觉和文本中提取不同的特征,然后分别采用特征级和决策级两种融合方式来对不同模态的特征进行融合。并且使用了几种基于监督学习的分类器来完成情感分类任务。

作者的目标就是构建一下如下图所示的通用的多模态情感分析系统。输入视频、文本、音频数据信息,然后在Cognitive Module中提取不同模态的特征,然后对特征向量进行融合,输入到Motor Module中,得到最终的多模态情感预测结果。

 

Introduction

本文将情感分为积极、消极和中性三类,在本文中,讨论了从不同的模态中提取特征的过程,以及如何使用它们来构建一个新的多模态情感分析框架。实验时,采用了几种基于监督学习的分类器来完成情感分类任务,并且发现使用ELM(极限学习机)获得了最好的性能。

       情感分析早已在信号处理和人工智能技术中应用比较广泛,对于文本、音频、视频这三种信息来源,目前大多数情感分析系统仅仅处理单一的信息源,此外,已知所有这些系统在满足健壮性、准确性和总体性能需求方面都存在局限性,这反过来大大限制了这些系统在现实应用中的有用性。

       人类交流和表达情感和情感的方式可以被表达为多模态。文本、音频和视觉模式同时被认知地利用,从而能够有效地提取在交流过程中传递的语义和情感信息。视频数据中会包含更多的线索,以识别意见持有人与产品有关的情绪。视频中的音频数据表达的是说话者的语气,而视觉数据传递的是面部表情,这反过来有助于理解用户的情感状态。

Methods

首先,对YouTube数据集进行处理,将视频分割成几个片段,然后将视频转化为图像,对图像进行人脸特征提取就能够得到视觉模态的特征向量。

另外,音频数据和文本数据来自于视频片段的音频信号和文本转录,得到数据后,采用不同的方法来提取音频模态特征和文本模态特征。

 针对本文采用基于提取概念的特征提取方法,主要就是根据句子的语法、词性、句子的形态来提取句子中的几个单词。

特征级融合

通过连接所有三种模式的特征向量来实现特征级融合,形成一个单一的长特征向量。这种简单的方法具有相对简单的优点,但具有很高的精度。我们将每个模态的特征向量拼接成一个单一的特征向量流。然后利用该特征向量对每个视频片段进行情感分类。为了估计准确性,我们使用十倍交叉验证。

决策级融合

我们对每个模态使用单独的分类器。每个分类器的输出作为一个分类评分。特别地,我们从每个分类器中获得了每个情感类的概率得分。

Experimental Results

首先介绍一下作者对于不同分类器的的比较,可以得到使用ELM的性能是最好的,因此在下面的实验中,是使用ELM得出的结果。

表5是采用特征级融合得到的结果,分别验证了T、A、V、T+V、V+A、T+A和T+A+V取得的性能,我们可以看到,不管是双模态还是三模态的融合,其性能都要比单模态的优秀,而三模态融合取得了最好的效果。

表6是采用决策级融合得到的结果,验证了 T+V、V+A、T+A和T+A+V取得的效果,在这些结果中,也是三模态融合取得的效果最好。

 

总结

本文作为多模态情感识别领域中一篇比较早发表的文章,为我们后续研究多模态提供了很多很好的思路,但是作者研究的多模态情感分析系统是面向对话级数据集的,可能会存在一些应用方面的瓶颈。

本文注重于使用各种有效的方法从不同模态中提取特征,尤其是使用基于语义计算来对文本特征进行特征提取,大大的提高系统的性能,这也为我们提供了未来的一个方向,可以通过研究更有效的方法来对多模态信息源进行特征提取,这样能够优化模型性能。

 

这篇关于【论文阅读】Fusing Audio, Visual and Textual Clues for Sentiment Analysis from Multimodal Content的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/179066

相关文章

Visual Studio中,MSBUild版本问题

假如项目规定了MSBUild版本,那么在安装完Visual Studio后,假如带的MSBUild版本与项目要求的版本不符合要求,那么可以把需要的MSBUild添加到系统中,然后即可使用。步骤如下:            假如项目需要使用V12的MSBUild,而安装的Visual Studio带的MSBUild版本为V14。 ①到MSDN下载V12 MSBUild包,把V12包解压到目录(

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的