clues专题

【论文阅读】Fusing Audio, Visual and Textual Clues for Sentiment Analysis from Multimodal Content

Motivations 随着社交媒体的普及,用户倾向于用视频来表达他们对产品的看法,因此,单单只对文本进行情感识别已经满足不了现在的智能系统,而且视频数据中可能包含更多的线索,视频中的音频数据表达的是说话者的语气,而视觉数据传递的是面部表情,这反过来有助于理解用户的情感状态。 因此作者提出了一种新的多模态情感分析方法,从音频、视觉和文本中提取不同的特征,然后分别采用特征级和决策级两种融合方式来