ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models

本文主要是介绍ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

动机

  1. 预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。
  2. 基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是将这条线的研究扩展到视频对话任务,并充分利用预训练好的模型的能力以在对话和视频中获得语言和视觉表示。
  3. 视频对话是一个非常具有挑战性的过程,涉及到不同动态的复杂特征:(1)视频特征可以扩展到空间和时间两个维度;(2)涉及多个对话转折的语义依赖的对话特征。
  4. 作者的目标是以端到端的方式处理基于视频的对话任务和生成自然反应。

方法

简介

视听场景感知对话(AVSD)任务,该任务旨在根据视频的视觉和音频特征生成对话响应。对话引擎需要创建响应,不仅匹配对话流,而且在多个对话轮中处理用户关于给定视频的问题。作者提出了一个扩展GPT-2模型的框架,通过将基于视频的对话任务形成为序列到序列的任务,将视觉和文本表示结合到结构化的序列中,并对预训练好的大型GPT-2网络进行微调,来应对上述挑战。作者的框架允许对语言模型进行微调,以捕获不同信息层次上的多个模态之间的依赖关系:视频中的时空级和对话上下文中的token-句子级。
首先,作者将基于视频的对话作为预训练好的语言模型的下游任务来表达输入成分。在一般的序列到序列的框架中,输入组件被组合成一个多模态的结构化序列,输出是一个系统响应。然后作者应用预训练的模型来利用深度注意力神经网络以精细粒度从而捕获文本和视频依赖关系。具体地说,作者提出了沿着输入视频的时间维度捕获文本数据中的每个token和每个空间特征之间的依赖关系。最后,作者提出了一个多任务学习框架,它除了对话反应生成目标之外,还包括其他学习目标。作者对DSTC7的视听场景感知对话(AVSD)标准进行了有希望的改进,为这方面的研究提供了一个潜在的方向。

模型

在这里插入图片描述

作者的模型架构可以在图1中看到。作者受到基于Transformer的LM方法的启发,该方法利用文本

这篇关于ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598570

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

网络学习-eNSP配置ACL

AR1路由器配置 <Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabitethernet 0/0/0[Huawei-G

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

LLVM入门2:如何基于自己的代码生成IR-LLVM IR code generation实例介绍

概述 本节将通过一个简单的例子来介绍如何生成llvm IR,以Kaleidoscope IR中的例子为例,我们基于LLVM接口构建一个简单的编译器,实现简单的语句解析并转化为LLVM IR,生成对应的LLVM IR部分,代码如下,文件名为toy.cpp,先给出代码,后面会详细介绍每一步分代码: #include "llvm/ADT/APFloat.h"#include "llvm/ADT/S

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed” 1. 安装llama库时出错2. 定位问题1. 去官网下载llama包 2.修改配置文件2.1 解压文件2.2 修改配置文件 3. 本地安装文件 1. 安装llama库时出错 2. 定位问题 根据查到的资料,发现时llama包中的execfile函数已经被下线了,需要我们手动修改代码后