EMNLP 2020 BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues

本文主要是介绍EMNLP 2020 BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

动机

在这里插入图片描述

  1. 基于视频的对话是非常具有挑战性的,这是因为(i)包含空间和时间变化的视频的复杂性,以及(ii)用户在视频或者多个对话轮中查询不同片段和/或不同目标的话语的复杂性。然而,现有的基于视频的对话方法往往关注于表面的时间级视觉线索,而不是从视频中获取更细粒度的空间信号。作者的方法旨在通过双向推理框架从视频中检索细粒度信息来挑战基于视频的对话来解决这一问题。
  2. 与视频对话相关的任务是视频问答和视频captioning。之前在这些研究领域的努力,如 Tgif-qa、GRU-EVEhft+sem-(CI)明确地考虑了输入视频的空间和时间特征。这些模型根据对问题的重要性来学习概括空间特征,而不是对每个区域进行等同考虑。作者受到这些方法的激励,并提议将时空推理扩展到对话。
  3. 作者注意到,在某些情况下,例如长时间的扩展视频,在确定特定的感兴趣的主题之前,首先识别相关的视频片段,而不是固定地处理空间输入然后学习时间输入。考虑对话设置中的问题,假设问题与视频的不同时间位置相关是适当的,而不仅仅是一个小的固定片段。
方法
简介

通常,时空学习方法的目标是从复杂视频中获取更高分辨率的信息,这些复杂视频涉及每个视频帧中的多个目标或视频片段上的运动。作者提出了一种双向视觉语言推理方法,将该方法命名为双向时空学习(BiST),通过两个推理方向来充分利用空间和时间层面的特征。作者的方法包括两个并行网络,基于用户话语中的语言信号,从输入视频中学习相关的视觉信号。每个网络将基于语言的特征投射到一个三维张量,然后该张量被用于按照一个推理方向独立地学习视频信号,该推理方向可以是空间的→时间的或时间的→空间的。每个网络的输出由基于语言和视觉特征计算的重要性分数动态组合。加权输出被循环地用作推理模块的输入,以允许模型在多个步骤中递进地导出相关视频信号。直观地看,时空推理更适合于与特定实体相关的人类查询或涉及多个目标的输入视频。时空推理更适合于人类对特定视频片段或长视频的查询。

模型

输入包括视频V、(t-1)轮对话历史(其中t是当前轮),每轮包括一对(人类话语H、对话智能体响应A)(H1, A1, …, HT-1, AT-1),以及当前人类的话语。输出是可以处理当前人类的话语的一个系统响应。输入视频可以包含不同模态的特征,包括视觉、音频和文本(例如视频caption或字幕)。在无泛化损失的情况下,作者可以将每个文本输入表示为一系列token,每个token由词汇集V中的唯一token索引表示:数据历史Xhis、用户话语Xque、视频的文本输入Xcap、以及输出响应Y。作者还将LS表示为序列S的长度。例如,Lque是Xque的长度。
在这里插入图片描述

作者的模型由四部分组成:

(1)编码器将文本序列和视频输入(包括视觉、音频和文本特征)编码成连续的表示。对于视觉和声音等非文本特征,作者遵循之前TVQA的工作,并假设访问预训练好的模型。

(2)多个神经推理组件学习用户话语/查询与多模态视频特征之间的依赖关系。对于视频视觉特征,作者提出在两个方向上同时学习空间和时间层面的依赖关系(参见图2)。具体地说,作者允许用户查询中的每个token与视频的每个空间位置或时间步骤之间进行交互。基于空间或基于时间的推理的输出在时间空间和空间时间两个方向上依次进行。这种双向策略使信息动态融合,并捕获对话中的文本信号和视频中的视觉信号之间的复杂依赖关系。

(3)解码器通过多个attention步骤传递编码的系统响应,每个attention步骤从文本或视频表示中提取信息。通过自回归方式,解码器输出传递给生成器以生成token。

(4)生成器计算词汇集上的三个分布,一个分布是从线性变换输出的,另一个分布是基于输入序列位置上的指针attention分数。

具体包括:

  1. 编码器。

    1)文本编码器。作者使用编码器将基于文本的输入X嵌入到连续表示Z∈RLX×d中。LX是序列X的长度,d是嵌入维数。文本编码器包括token级嵌入层和层归一化。嵌入层包括一个可训练矩阵E∈R|V|×d,其中每一行表示词汇表集合V中的一个token,作为维度D的向量。作者将E(X)作为查找输入序列X中每个token的向量的嵌入函数:Zemb=E(X)∈RLX×d。将位置编码层,作者采用Attention is all you need中的方法,每个token位置表示为正弦或余弦函数。位置编码和token级嵌入的输出通过点加和层归一化相结合。编码

这篇关于EMNLP 2020 BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598571

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

KDD 2024 时空数据(Spatio-temporal) ADS论文总结

2024 KDD( ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 知识发现和数据挖掘会议)在2024年8月25日-29日在西班牙巴塞罗那举行。 本文总结了KDD2024有关时空数据(Spatial-temporal) 的相关论文,如有疏漏,欢迎大家补充。 时空数据Topic:时空(交通)预测, 生成,拥堵预测,定价预

2020年SEO行业发展变化和趋势分析!

一、搜索引擎算法发展轨迹 第一阶段:人工目录(1997年-2001年“雅虎早期搜索模式”); 第二阶段:文本分析(2001年-2004年“以关键词和背景颜色一样,堆积大量关键词,就会有非常好的排名; 第三阶段:链接分析(2004年-2009年“以反向链接为核心算法的阶段”),这时行业内有句话是内容为王,外链为皇; 第四阶段:智能分析(2009年-现在“以满足用户人性化需求的用户浏览行为分析

Apache-Flink深度解析-Temporal-Table-JOIN

在《JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table的工作流程如下:

DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解

今天特地查了一些官方解释和很多优秀的博客文章,将关于数仓方面的一些名词理解记了下来,先将这些简称做一个解释: 1、DB(DataBase):数据库,一般指的就是OLTP数据库,在线事物数据库,用来支持生产的。DB保留的是数据信息的最新状态,只有一个状态! 2、DW(Data Warehouse):数据仓库,保存的是数据在不同时间点的状态,对同一个数据信息,保留不同时间点的状态,便于我们做统计

2020年数据术语的故事

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 2020年整个技术圈子要说话题最多的,应该是大数据方向。新感念层出不穷,数据湖概念就是其中之一。这篇文章是关于数据仓库、数据湖、数据集市、数据中台等一些列的概念和发展进程。希望给大家带来一个全面的感知。 本文作者:Murkey学习之旅、开心自由天使 本文整理:大数据技术与架构,未经允许不得转载。 如今,随着诸如互联网以及物联网等