论文笔记|Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

本文主要是介绍论文笔记|Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述


作者:迪

单位:燕山大学


论文地址

代码地址

论文来源:ACL2020


前言

  由于最近的工作想要利用图结构解决问题,因此分享此文的目的是想与大家探讨如何使用图结构表达文章信息。

概述

  机器阅读理解是模型在理解文本后,根据相应的问题找出对应的答案。NQ(Natural Questions)是一项新的机器阅读理解任务,它包括长答案(通常是一段话)与短答案(长答案中的实体)。数据集如下图所示。

在这里插入图片描述

  尽管现存的模型在该数据集上是有效的,但忽略了两种答案类型之间的联系。本文提出了一种多粒度机器阅读理解框架解决该问题。该模型将文章的理解层次划分为4层,词级、句级、段落级、文档级,利用图注意力网络对文章进行建模。长答案与短答案分别从段落级与词级表示获取,而段落级与词级又可以互相提供信息。实验结果表明,本文的方法优于之前的方法。

主要贡献

  1. 提出一种基于BERT与图注意力网络的多粒度机器阅读理解框架
  2. 采用一种同时考虑长答案与短答案的策略,对学习两种有依赖关系的答案是有效的
  3. 在NQ的榜单上取得了SOTA的成绩

准备工作

数据集

  NQ数据集中的每个样本都包含一个问题和一个Wikipedia页面。模型需要预测两种类型的输出:1)长答案,它可以是一个段落、一个表、一个列表项或整个列表。在候选答案中选择长答案,如候选答案与问题都不相关,则应给予“no answer”;2)短答案,可以是“yes”,“no”或长答案中的实体。如果候选答案与问题都不相关,应该给出“no answer”。

预处理

  由于NQ数据集中文档的平均长度太长,需将文档划分为文档片段,本文采用的方法是使用划窗将其拆分为具有重叠词的文档片段列表。然后,通过连接[CLS]、tokenized question、[SEP]、文档片段列表的tokens、[SEP]来构成一个训练实例。

模型

  一个文档的文档片段输入给模型,经过图编码器后获得文档片段编码信息,将所有文档片段编码信息合并送入答案选择模块,最终得到长答案与短答案。模型结构图如下图所示。

在这里插入图片描述

定义输入与输出

  将训练集的样本定义为 ( c , S , l , s , e , t ) (c,S,l,s,e,t) (c,S,l,s,e,t)。假设样本是由第 i i i个文档片段 D i D_i Di生成, Q Q Q为问题的表示,即 ∣ Q ∣ + ∣ D i ∣ + 3 = 512 |Q|+|D_i|+3=512 Q+Di+3=512,则 c = ( [ C L S ] , Q 1 , … , Q ∣ Q ∣ , [ S E P ] , D i , 1 , … , D i , D i , [ S E P ] ) c=([CLS],Q_1,…,Q_{|Q|},[SEP],D_{i,1},…,D_{i,D_i},[SEP]) c=([CLS],Q1,,QQ,[SEP],Di,1,,Di,Di,[SEP]) S S S表示为文档片段 D i D_i Di的一组长答案的候选项, l ∈ S l\in{S} lS是候选集中的目标答案,即长答案, s , e ∈ 0 , 1 , … , 511 s,e\in{0,1,…,511} s,e0,1,,511是短答案的开始和结束索引。 t ∈ 0 , 1 , 2 , 3 , 4 t\in{0,1,2,3,4} t0,1,

这篇关于论文笔记|Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1017990

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2