Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

本文主要是介绍Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主要贡献

  1. 作者提出了基于句子级别的Attention模型来选择有效的句子。
  2. 从FreeBase和Wikipedia页面去获取实体描述,从而弥补背景知识不足的缺陷,从而给实体更好的representation。
  3. 做了很多实验,效果很好。

任务定义

  1. 所有句子被分到N组bags中, {B1,B2,,Bi} { B 1 ​ , B 2 ​ , ⋯ , B i }
  2. 每个bag中的的句子都描述了同一组实体的关系 r(e1,e2) r ( e 1 ​ , e 2 ​ )
  3. 每个bag中有qi​句句子, Bi={b1,b2,,bqi}(i=1,2,...,N) B i = { b 1 ​ , b 2 ​ , ⋯ , b q i } ( i = 1 , 2 , . . . , N )
    这个任务的目标是,预测每个bag对于的label。

主要方法

提出基于sentence-level attantion 模型,目的是想从每个bag中,找到尽可能多的对关系分类有帮助的句子。
通过实体描述来提供更多的背景知识

网络架构

该网络主要由两部分组成:: PCNNs Module and Sentence-level Attention Module. PCNNs Module includes Vector Representation, Convolution and Piecewise Max-pooling. Sentence-level Attention Module is composed of Attention Layer and Softmax Classifier.
这里写图片描述

PCNNs Module模型

单词的Representation

  1. Word Embeddings:使用Word2Vec
  2. Position Embeddings:当前单词到两个目标单词的距离,是一个2维向量。
    这里写图片描述
    然后作者将Word2Vec与Position Embeddings拼接起来。

Convolution

假设A与B向量都是m*n维的,定义运算符⊗,
这里写图片描述
将一句句子表示为
这里写图片描述
其中si是表示句子中第i个单词的向量表示。
[si:sj] [ s i : s j ] 表示将第i个与第j词向量拼接起来。
作者定义n个大小为w*k的feature map(w为考虑的相邻单词数量,k为每个单词向量的长度),每个feature map会覆盖w个相邻单词的词向量,如图(a)所示,一个feature map从左到右计算完之后,会生成一个长度为|S|-w+1的向量,一共有n个feature map,因此总工会生成n个长度为|S|-w+1的向量 C={c1,c2,,cn} C = { c 1 , c 2 , ⋯ , c n }
Piecewise Max-pooling
上面每个feature map会生成一个长度为|S|-w+1的向量c,这里将c按照两个entity划分成3段,图(a)中ci灰色的节点即为entity,然后对每一段分别进行max pooling,然后将它们拼接起来,因此最终会生成一个长度为3n的向量,即图(a)中的sentence feature vector。

Sentence-level Attention Module

Attention Layer

作者从graph embedding里面找到灵感,使用两个词向量的差来表示关系特征,v_{relation} = e1 - e2.
如图(b)所示,bi为一句句子的向量,作者提出以下两个公式来计算Attention的权重,如果一句话表达出的关系是正确的,那么它的权重将会较高,错误的会较低:
这里写图片描述
即将v_{relation}与一组bag中每句句子做连接,计算一个ωi,然后通过softmax算出每句句子的权重,最后再通过下面这个公式计算整个bag的带权特征:
这里写图片描述

sotfmax

得到了带权特征之后,再通过softmax对一组bag预测一个最终的关系,如下所示
这里写图片描述
这里写图片描述

Entity Descriptions

作者提出,背景知识能够提升对两个实体关系预测的准确性,因此作者又用过一个CNN来进行背景知识的特征提取,并构建如下<实体,关系>映射表:
这里写图片描述
其中di是通过CNN计算出来的,作者希望实体的描述与实体本身尽可能一直,因此使用如下损失函数来计算 di d i
这里写图片描述

Training Objective

在训练的时候,首先使用叫cross-entropy损失函数(公式(9))来训练sentence-level Attention模块,然后在联合训练Entity Descriptions(公式(10)):
这里写图片描述
这里写图片描述
实验结果
这里写图片描述
这里写图片描述

这篇关于Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/280089

相关文章

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

PAT (Advanced Level) Practice——1011,1012

1011:  链接: 1011 World Cup Betting - PAT (Advanced Level) Practice (pintia.cn) 题意及解题思路: 简单来说就是给你3行数字,每一行都是按照W,T,L的顺序给出相应的赔率。我们需要找到每一行的W,T,L当中最大的一个数,累乘的结果再乘以0.65,按照例子写出表达式即可。 同时还需要记录每一次选择的是W,T还是L

基于 BiLSTM+Attention 实现降雨预测多变量时序分类——明日是否降雨

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。 降雨预测作为气象学和水文学领域的重要研究课题,‌对于农业、‌城市规划、

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

深入理解推荐系统:推荐系统中的attention机制

什么是attention机制、在推荐模型中的应用(会介绍相关模型,AFM/DIN/DIEN/DST)和参考文献  什么是attention机制  Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,在计算attention时主要分为三步 第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;