本文主要是介绍ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
动机
- 预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。
- 基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是将这条线的研究扩展到视频对话任务,并充分利用预训练好的模型的能力以在对话和视频中获得语言和视觉表示。
- 视频对话是一个非常具有挑战性的过程,涉及到不同动态的复杂特征:(1)视频特征可以扩展到空间和时间两个维度;(2)涉及多个对话转折的语义依赖的对话特征。
- 作者的目标是以端到端的方式处理基于视频的对话任务和生成自然反应。
方法
简介
视听场景感知对话(AVSD)任务,该任务旨在根据视频的视觉和音频特征生成对话响应。对话引擎需要创建响应,不仅匹配对话流,而且在多个对话轮中处理用户关于给定视频的问题。作者提出了一个扩展GPT-2模型的框架,通过将基于视频的对话任务形成为序列到序列的任务,将视觉和文本表示结合到结构化的序列中,并对预训练好的大型GPT-2网络进行微调,来应对上述挑战。作者的框架允许对语言模型进行微调,以捕获不同信息层次上的多个模态之间的依赖关系:视频中的时空级和对话上下文中的token-句子级。
首先,作者将基于视频的对话作为预训练好的语言模型的下游任务来表达输入成分。在一般的序列到序列的框架中,输入组件被组合成一个多模态的结构化序列,输出是一个系统响应。然后作者应用预训练的模型来利用深度注意力神经网络以精细粒度从而捕获文本和视频依赖关系。具体地说,作者提出了沿着输入视频的时间维度捕获文本数据中的每个token和每个空间特征之间的依赖关系。最后,作者提出了一个多任务学习框架,它除了对话反应生成目标之外,还包括其他学习目标。作者对DSTC7的视听场景感知对话(AVSD)标准进行了有希望的改进,为这方面的研究提供了一个潜在的方向。
模型
作者的模型架构可以在图1中看到。作者受到基于Transformer的LM方法的启发,该方法利用文本
这篇关于ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!