ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

本文主要是介绍ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

动机
  1. 本文目标是生成一个段落(多个句子),条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一,因为它不仅要求视频的视觉相关性,而且要求段落中句子之间基于语篇的连贯性。
  2. 最近,Transformer已被证明比RNN更有效,在许多顺序建模任务中展示了卓越的性能。之前将transformer模型引入视频段落captioning任务的方法,Transformer操作在分离的固定长度的段上,没有跨段的任何信息流。Transformer架构仍然不能很好地建模历史信息。因此,为了生成更加连贯的视频段落,必须建立一个能够跨越多个视频片段并捕获更长范围依赖关系的模型。
方法
简介

作者提出了记忆增强递归Transformer模型(MART模型),这是一个基于Transformer的模型,它使用一个共享的编码器-解码器结构,加上一个外部记忆模型,以实现对视频片段和句子的先前历史的建模。与vanilla transformer视频段落captioning模型相比,作者的第一个架构变化是统一的编码器-解码器设计,即MART中的编码器和解码器使用共享的transformer层,而不是独立的Transformer层。这种统一的编码器-解码器设计灵感来自最近的transformer语言模型,以防止过拟合和减少内存使用。此外,记忆模块作为记忆更新器工作,该记忆更新器使用当前输入和先前的记忆状态来更新其记忆状态。记忆状态可以被解释为高度概括的视频段和caption历史信息的容器。在编码阶段,使用交叉注意力从上一步骤的记忆状态来增强当前视频片段表示。因此,当生成一个新的文本时,MART能够意识到先前的上下文信息,并且能够生成具有更高连贯性和更低重复性的段落captions。

Transformer-XL是最近提出的一种transformer语言模型,它也使用了递归,并且能够解决用于语言建模的上下文片段问题(即每个语言片段都被单独建模而不知道其周围的上下文,从而导致无效的优化和较低的性能。)。与MART使用高度概括的存储器(它在传递有用的语义或未来句子的语言线索时比Transformer-XL更有效。)来记住他的历史信息不同,Transformer-XL直接使用以前片段中的隐藏状态。作者为了视频段落captioning任务,修改了Transformer-XL框架,并将其作为一个额外的比较呈现出来。作者基于两个标准数据集对MART进行基准测试:ActivityNet Captions和YouCookII。自动评估和人工评估都表明,对比以前的基于LSTM的方法和基于Transformer的方法,MART生成了更令人满意的结果。特别是,MART可以生成更连贯的段落(例如,共指和顺序),更少的冗余段落,而不损失段落的准确性(视觉相关性)。

问题描述

虽然作者的方法提供了一个通用的时间多模态学习框架,但作者主要针对视频段落captioning任务。给定一个视频V,有几个按时间顺序排列的事件片段[e1, e2, …, eT],任务是生成一个由多个句子[s1, s2, …, sT]的连贯的段落来描述整个视频,其中句子st应该描述片段et中的内容。

生成没有递归结构的句子的基线Transformer

这篇关于ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598573

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

网络学习-eNSP配置ACL

AR1路由器配置 <Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabitethernet 0/0/0[Huawei-G

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

综合DHCP、ACL、NAT、Telnet和PPPoE进行网络设计练习

描述:企业内网和运营商网络如上图所示。 公网IP段:12.1.1.0/24。 内网IP段:192.168.1.0/24。 公网口PPPOE 拨号采用CHAP认证,用户名:admin 密码:Admin@123 财务PC 配置静态IP:192.168.1.8 R1使用模拟器中的AR201型号,作为交换路由一体机,下图的WAN口为E0/0/8口,可以在该接口下配置IP地址。 可以通过

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器) ​ 在此基础上我们再进一步细化TRM的

LLM模型:代码讲解Transformer运行原理

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torchimport tiktokenfrom wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU#

逐行讲解Transformer的代码实现和原理讲解:计算交叉熵损失

LLM模型:Transformer代码实现和原理讲解:前馈神经网络_哔哩哔哩_bilibili 1 计算交叉熵目的 计算 loss = F.cross_entropy(input=linear_predictions_reshaped, target=targets_reshaped) 的目的是为了评估模型预测结果与实际标签之间的差距,并提供一个量化指标,用于指导模型的训练过程。具体来说,交叉