EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

本文主要是介绍EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

动机

在这里插入图片描述

  1. 多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章,这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。
  2. 自动生成多模态摘要,即选择合适的视频封面帧,生成合适的文章文本摘要,可以帮助编辑节省时间,读者更有效地做出决策。
  3. 在实际应用中,输入通常是由数百帧组成的视频,且通常需要选择封面图。因此,视频中的时间依赖性不能简单地用静态编码方法来建模。
  4. 视频的封面图片应该是整个视频的突出点,而文本摘要也应该从源文章中提取重要信息。由于视频和文章所关注的是同一事件,报道内容相同,这两种信息格式在总结过程中相互融合。然而,由于视频和文章来自两个不同的空间,如何充分挖掘视频中帧的时间依赖性与文章语义之间的关系仍然是一个难题。
方法
简介

本文提出了一种新的任务–基于视频的多模态输出的多模态概括(VMSMO),它从新闻视频中选取封面帧,同时生成新闻文章的文本摘要。本文提出了一种基于双交互的多模态概括器(DIMS)模型,该模型通过在总结过程中采用双交互策略,同时对文章和视频进行概括学习。具体地说,作者首先使用递归神经网络(RNN)对文本和视频进行编码。注意,通过编码RNN,视频中图像之间的空间和时间依赖关系被捕获。接下来,作者设计了双交互模块,让视频和文本充分交互。具体地说,作者提出了一种条件self-attention机制,在文章的指导下学习局部视频表示,并提出了一种全局attention机制,学习视频感知文章和文章感知视频的高级表示。最后,多模态生成器生成文本,并根据最后一步的融合表示提取封面图像。为了评价模型的性能,作者从社交媒体网站上收集了第一个与视频封面相关的大型新闻文章摘要数据集。在这个数据集上进行的大量实验表明,DIMS在常用度量中的性能显著优于最先进的基线方法。

问题表述

对于输入的新闻文章X={x1,x2, … ,xTd},其中 有 Ty个单词, 作者假设有一个GT(Ground Truth)文本概括Y={y1, y2, … , yTy},其中有Ty个单词。同时,有一个与文章相对应的新闻视频V,作者假定有一个GT封面图片C,它通过从视频内容中提取最重要的帧获得。对于给定的文章X和相应的视频V,通过进行深度互动,作者的模型强调两个输入的突出部分。目标是生成一个文本摘要Y,它成功抓住文章要点,并选择一个涵盖视频要点的帧图片C

模型

在这里插入图片描述

作者提出了作者的基于双交互的多模态概括器(DIMS),它在图2中可以分为三个部分:

1)特征编码器由一个文本编码器和一个视频编码器组成,分别对输入的文章和视频进行编码。

2)双交互模块进行深度交互,包括视频片段和文章之间的条件self-attention和全局attention机制来学习两个输入的不同层次的表示。

3)多生成器通过结合融合信息生成文本并选择视频封面。

具体包括:

  1. 特征编码器。

    1)文本编码器。为了对输入新闻文本X的语义进行建模,作者首先使用一个单词嵌入矩阵e映射每个词xi的一个独热表示到一个高维向量空间中。然后,为了从这些嵌入表示中编码上下文信息,作者使用双向递归神经网络(Bi-RNN)来建模单词之间的时间交互:

这篇关于EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598569

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{