顶会最强的前20%！电影情感效应预测论文拿下ACMMM Oral收录！

本文主要是介绍顶会最强的前20%！电影情感效应预测论文拿下ACMMM Oral收录！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文内容出自阿里文娱AI大脑北斗星团队，研究成果已发表在ACMMM 2022

论文名：Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者：张杰、赵寅、钱凯

背景

三流的导演拍故事，一流的导演拍情绪。纵观古往今外，经典的高分电影之所以经久不衰，无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中，观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此，综合视听语言等因素，搭建一条合适的“情感线”是电影成功的关键。那么，如果我们可以在电影上线之前，提前预测电影对于观众的情感效应，刻画出这条“情感线”，对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此，我们展开了电影情感效应预测方面的研究工作。

简介

电影情感效应分析旨在预测观众在观看电影时所产生的情感，其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域，情感的标签可以分为两种：1是离散的情感标签，如开心、伤心等等；2是连续的情感模型，如使用最多的二维VA情感模型（如图1所示），其中Valence代表的是情感的正负，Arousal代表的是情感的强度，两者的取值均在-1到1之间。相比于离散的标签，连续的情感模型可以更细致全面地描述情感的各个维度，在学术界和工业界有着更加广泛的应用。因此，我们采用了VA情感模型，主要目标就是根据影视剧的内容，预测观众的VA情感。

图1 VA情感模型

要正确地预测观众的情感，上下文信息十分关键，同样的一段场景在不同的情景下可能会产生不同的情感效应，比如同样一段打斗的画面，在犯罪剧中是令人紧张的，在喜剧中则可能是幽默风趣的。因此，有效地建模上下文信息对于电影的情感效应预测至关重要。

为了建模上下文信息，最常用的经典模型可以分为两种：循环神经网络（如LSTM[1]等）和Transformer[2]。然而，在面对电影这种动辄几千秒的长序列时，这些时序模型存在着一定的缺陷：

a. 循环神经网络的记忆能力有限，难以建模长时依赖

b. 循环神经网络采用的BPTT的更新方式存在梯度消失和爆炸的问题，此外其需要存储大量的中间变量，不适用于特别长的序列

c. Transformer的计算量随着时序的增加呈平方级增加，同样不适用于特别长的序列

受限于常用时序模型的这些缺陷，目前大部分的方案都是将电影切分成小片段，然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系，无法建模长时序的上下文信息，对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。

为了解决这些问题，我们提出了基于强化学习的记忆网络，其核心在于利用记忆模块存储历史信息，并利用强化学习得到记忆模块的更新策略。如图2所示，我们方法存在以下优势：

a. 通过记忆模块提升了模型的记忆能力

b. 利用强化学习的时序差分法，减小了计算量和存储量，避免了梯度消失和爆炸的问题

c. 利用强化学习中的价值网络和策略网络，有效捕捉长时序依赖

图2 基于强化学习的记忆网络优势示意图

为了验证我们方法的有效性，我们在多种任务的多个数据集上进行了实验，结果均达到了SOTA。

下面我们将对所提方案展开详细的介绍。

方案

模型的整体框架如图3所示：给定一个电影，我们将其划分成连续的片段 $C={c_1,c_t,⋯,c_T}$ ,对于一个电影片段 $c_t$ ，我们提取多模态特征，并将这些特征编码成向量表征 $e_t$ 。然后向量表征 $e_t$ 和历史记忆信息 $m_{t-1}$ 组成状态输入到策略网络μ中去，产生一系列的动作 $a_t$ ，这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块mt和向量表征 $e_t$ ，作出最终的预测 $y_t$ 。预测结果的误差会作为奖励 $r_t$ ，指导价值网络Q学习未来的期望奖励，价值网络则会用来指导策略网络学习长时序依赖。

图3 模型整体框架

下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍

特征提取

为了得到富含情感信息的表征，我们提取了5种模态的特征：利用VGGish[3]提取音频特征；利用背景音乐情感模型提取bgm情感特征；利用在Places365[4]上预训练的VGG16[5]提取场景特征；利用OpenPose[6]的主干部分提取人物姿态特征；利用在RAF[7]上预训练的Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做concat操作，然后利用LSTM来融合时序信息，并取最后一个时间步的隐藏状态作为电影片段的向量表征。