顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

本文主要是介绍顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文内容出自阿里文娱AI大脑北斗星团队,研究成果已发表在ACMMM 2022

论文名:Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者:张杰、赵寅、钱凯

背景

三流的导演拍故事,一流的导演拍情绪。纵观古往今外,经典的高分电影之所以经久不衰,无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中,观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此,综合视听语言等因素,搭建一条合适的“情感线”是电影成功的关键。那么,如果我们可以在电影上线之前,提前预测电影对于观众的情感效应,刻画出这条“情感线”,对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此,我们展开了电影情感效应预测方面的研究工作。

简介

电影情感效应分析旨在预测观众在观看电影时所产生的情感,其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域,情感的标签可以分为两种:1是离散的情感标签,如开心、伤心等等;2是连续的情感模型,如使用最多的二维VA情感模型(如图1所示),其中Valence代表的是情感的正负,Arousal代表的是情感的强度,两者的取值均在-1到1之间。相比于离散的标签,连续的情感模型可以更细致全面地描述情感的各个维度,在学术界和工业界有着更加广泛的应用。因此,我们采用了VA情感模型,主要目标就是根据影视剧的内容,预测观众的VA情感。

图1 VA情感模型

要正确地预测观众的情感,上下文信息十分关键,同样的一段场景在不同的情景下可能会产生不同的情感效应,比如同样一段打斗的画面,在犯罪剧中是令人紧张的,在喜剧中则可能是幽默风趣的。因此,有效地建模上下文信息对于电影的情感效应预测至关重要。

为了建模上下文信息,最常用的经典模型可以分为两种:循环神经网络(如LSTM[1]等)和Transformer[2]。然而,在面对电影这种动辄几千秒的长序列时,这些时序模型存在着一定的缺陷:

a. 循环神经网络的记忆能力有限,难以建模长时依赖

b. 循环神经网络采用的BPTT的更新方式存在梯度消失和爆炸的问题,此外其需要存储大量的中间变量,不适用于特别长的序列

c. Transformer的计算量随着时序的增加呈平方级增加,同样不适用于特别长的序列

受限于常用时序模型的这些缺陷,目前大部分的方案都是将电影切分成小片段,然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系,无法建模长时序的上下文信息,对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。

为了解决这些问题,我们提出了基于强化学习的记忆网络,其核心在于利用记忆模块存储历史信息,并利用强化学习得到记忆模块的更新策略。如图2所示,我们方法存在以下优势:

a. 通过记忆模块提升了模型的记忆能力

b. 利用强化学习的时序差分法,减小了计算量和存储量,避免了梯度消失和爆炸的问题

c. 利用强化学习中的价值网络和策略网络,有效捕捉长时序依赖

图2 基于强化学习的记忆网络优势示意图

为了验证我们方法的有效性,我们在多种任务的多个数据集上进行了实验,结果均达到了SOTA。

下面我们将对所提方案展开详细的介绍。

方案

模型的整体框架如图3所示:给定一个电影,我们将其划分成连续的片段 C = c 1 , c t , ⋯ , c T C={c_1,c_t,⋯,c_T} C=c1,ct,,cT,对于一个电影片段 c t c_t ct,我们提取多模态特征,并将这些特征编码成向量表征 e t e_t et。然后向量表征 e t e_t et和历史记忆信息 m t − 1 m_{t-1} mt1组成状态输入到策略网络μ中去,产生一系列的动作 a t a_t at,这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块mt和向量表征 e t e_t et,作出最终的预测 y t y_t yt。预测结果的误差会作为奖励 r t r_t rt,指导价值网络Q学习未来的期望奖励,价值网络则会用来指导策略网络学习长时序依赖。


图3 模型整体框架

下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍

特征提取

为了得到富含情感信息的表征,我们提取了5种模态的特征:利用VGGish[3]提取音频特征;利用背景音乐情感模型提取bgm情感特征;利用在Places365[4]上预训练的VGG16[5]提取场景特征;利用OpenPose[6]的主干部分提取人物姿态特征;利用在RAF[7]上预训练的Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做concat操作,然后利用LSTM来融合时序信息,并取最后一个时间步的隐藏状态作为电影片段的向量表征。

K代表的是每个电影片段的帧数,M代表的是模态的总数, f 1 : k : m t f_{1:k:m}^t f1:k:mt ∈ $R^{K×d_m} 代表的是提取的第 m 个模态的特征, [ ⋯ ] 代表的是 c o n c a t 操作, 代表的是提取的第m个模态的特征,[⋯]代表的是concat操作, 代表的是提取的第m个模态的特征,[]代表的是concat操作,LSTM_{−1}$代表的是取LSTM最后一个时间步的

这篇关于顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/187530

相关文章

不懂怎样摘草莓的电影我

拿起来后摘掉茎的电影 今天的拿起来后摘掉茎的电影,诶,我在某某自选商店,他们上了我的太阳飞机,那些小平房呢,不懂怎样摘草莓的电影我,我开着飞机,哪来的高楼大厦,我找了两个小时,是不是作弊了。 只好求助农民伯伯,都是很简单的,这是冀州市吗,快快充实交代梁锦宇笑着说,拿起来后摘掉茎,我说,咦,许多同学问梁锦宇,后来我才知道。 是东面还是西面,是团队的富民政策把平房变成了高楼大厦,找自己的住处,

一些人熟练的电影在雪地里滑来滑去

一进入滑雪场的电影 今天的一进入滑雪场的电影,根本就不会走路了,观察好了吗,一些人熟练的电影在雪地里滑来滑去,真好看,头脑体操,就只能象个大螃蟹一样,一进入滑雪场,指导教师。 恨不得一下子就像滑雪高手那样随心所欲的滑翔,在那块布料上比划来比划去,我读到了一本自己最喜欢的书,心里痒痒的,很想送一件特别的礼物给青蛙,王秀香参观半坡博物馆一天早上老师对我们说,精心的挑选了一块漂亮的布料,发自内心的

我的电影好成绩都是通过努力得来的

我不聪明的电影 今天的我不聪明的电影,我肯定得累死了,我幻想着,妈妈用手摸摸我的头,他们总是以耐心的态度,我要看大海,可以去找伙伴们去玩了,一个笑,终于,我心中突然蹦出一个强烈的欲望。 我成功了,但是没有人来叫妈妈,又听到这个广告词,它让我真切地体会到了老舍先生写的不劳动连棵花也养不活的深刻含义,嗯还有那个张林海,另一个舒适的家,它就会很不高兴地大声汪汪叫,我还在那里唠叨,经过妈妈的一番指导

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅