Hybrid attention-based prototypical networks for noisy few-shot relation

2023-10-18 05:40

本文主要是介绍Hybrid attention-based prototypical networks for noisy few-shot relation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Gao [9] 等人提出文本与图像的一大区别在于其多样性和噪音更大,因此提出一种基于混合注意力的原型网络结构,如图 9 所示,首先使用 instance-level 的 attention 从支撑集中选出和 query 更为贴近的实例,同时降低噪声实例所带来的影响。

然后 feature-level 的实例能够衡量特征空间中的哪些维度对分类更为重要,从而为每种不同的关系都生成相适应的距离度量函数,从而使模型能够有效处理特征稀疏的问题。


此外,在AAAI2019的一篇论文中《Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification》,作者指出很多NLP领域的few-shot learning问题,因为文本本身的噪声更多,空间更复杂。因此,在prototype network的基础上提出了一种减少噪声干扰的模型。主要思想是包含两个level的attention:

  • instance level attention: 普通的protype network针对支撑集中各个样本进行直接平均,作者认为这样会噪声特别大,因此引入加权平均的思想。
  • feature level attention: 原始的prototype network直接利用简单的欧氏距离作为距离函数,而本文作者认为在利用支撑集中样例对测试样例进行分类时,某些feature可能对分类至关重要,因此在feature这个层级也要考虑注意力机制。
  • 【利用实例attention来选择support集中最有价值的样本,来缓解噪声样本对模型的影响。】
  • 【利用特征attention来突出特征空间中重要的特征维度,来缓解特征稀疏问题。】
  • 【实验表明,该模型在训练过程中加快了收敛的速度。】

参考一:https://www.jianshu.com/p/395d01c1eab5

参考二:https://blog.csdn.net/m0_38031488/article/details/90517760


会议:AAAI 2019
论文链接:https://gaotianyu1350.github.io/assets/aaai2019_hatt_paper.pdf
源码链接:https://github.com/thunlp/HATT-Proto

 

1 介绍

问题现状:使用 DS 可获取大量数据,但其范围比较局限,还存在稀疏数据的问题(例如,long-tail relations);现有的 FSL 模型都在 low-noise 的图像数据集上实验,无法处理多样性和含有较多噪声的文本数据。
(1)噪声数据:支持集中很少的噪声可以引起关系特征向量的巨大偏差(因为传统的原型由样本特征的简单平均算出)
(2)稀疏特征:对于一个关系特征向量,并不是所有的维度都对最终的分类结果具有明显的区分/决定作用。
本文方法:提出了基于混合注意力机制的原型网络(hybrid attention-based prototypical networks),包括 instance-level attentionfeature-level attention,分别解决上述两个问题;该方法提高了在含有噪声的 FSL 场景下(noisy FSL scenario)关系分类(RC)模型的性能与鲁棒性,并且加快了 RC 模型的收敛。

N-way K-shot

原文相关描述如下:

Little noise in the support set may cause a huge deviation of relation features, and not all dimensions of relation features in the space are discrimiative enough to support final classification. Our hybrid attentions are specially designed to alleviate the influence of noisy data and sparse features.

  • The instance-level attention module is to select more informative instances in the support set and denoise those noisy instances during training.
  • The feature-level attention module can highlight important dimensions in the feature space and formulate specific distance functions for different relations, which enables our model to alleviate the problem of feature sparsity.

instance-level attention 倾向于选择支持集中包含信息较多的那些实例,同时对训练数据进行降噪处理(降低噪声实例的权重);feature-level attention 则强调了特征空间中比较重要的那些维度,为不同的关系类型制定不同的距离函数,从而缓解了特征稀疏的问题。

2 相关工作

关系分类

小样本学习

3 方法论

3.1 符号与定义

小样本关系分类任务描述:给定一个关系集 R 和一个支持集 S,预测查询样本(query instance)x 中的实体对 (h, t) 之间的关系 rS 的定义如下:

 

在小样本学习的场景下,关系 ri 所包含的样本数量 ni 通常较小(一般小于20)。在术语 N-way K-shot 中,N 表示一个 episode 中支持集有多少个关系,K 表示每个关系包含多少个样本,即:

 

3.2 框架

3.3 HATT的实现

由于 Instance Encoder 和 Prototypical Networks 的实现比较简单,该笔记暂时略过,下面详细介绍 HATT 的实现步骤。

3.3.1 Instance-level Attention(IATT)

对于关系 i,其样本数量为 ni,其原型的特征向量为 cij 表示第 i 个关系中第 j 个样本(1 ≤ j ≤ ni),αj 表示第 j 个样本的权重, xij 表示第 i 个关系中第 j 个样本经过编码后得到的特征向量。公式如下:

 

αj 由Softmax函数得到(ej 作为相应的参数);x 为 query 样本的特征向量,g(·) 表示对 xijx 进行线性变换,再进行点乘操作(element-wise production),σ(·) 为激活函数,这里选用 tanh,将点乘结果映射到 [-1, 1] 之间,sum{·} 表示对向量里的所有元素求和。详细公式如下:

 

使用了 IATT 后,与 query 样本具有更多相似特征的 support 样本将会获得更高的权重,最后的原型也会与这些 support 样本更接近。

3.3.2 Feature-level Attention(FATT)

在 Euclidean 距离的基础上,乘以一个值 zi,得到一个新的距离度量,公式如下:

 

对于关系 ri,对其 K 个样本的特征向量进行 3 次卷积操作,得到 zi,具体计算流程如下图所示:

 

注意,卷积时采用了 padding 策略,以此来保证最终得到的 zi 大小为 1 * dh * 1。卷积操作的参数设置代码如下:

 

4 实验

为了表明混合注意力机制在有噪声数据的情况下能够让网络有较好的鲁棒性,我们采用了 4 个级别的 noise_rate:0、10%、30%、50%,也就是说,在训练和测试时,support set 中正确的句子有相应噪声率的可能性被替换成其他句子,该其他句子的 label 与原 label 不一样即可。

 

# 返回一个或一组服从0~1均匀分布的随机样本值
prob = np.random.rand()
if prob < noise_rate:# 替换操作

4.1 结果

4.2 IATT的影响

4.3 FATT的影响

5 未来工作

将混合注意力机制与其他 FSL 模型结合,并且使用更多的神经网络编码器,来让我们的模型更具有一般性。



作者:一只椰子啊嘻嘻嘻
链接:https://www.jianshu.com/p/395d01c1eab5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

这篇关于Hybrid attention-based prototypical networks for noisy few-shot relation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/230535

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

Android Studio打开Modem模块出现:The project ‘***‘ is not a Gradle-based project

花了挺长时间处理该问题,特记录如下:1.背景: 在Android studio 下导入一个新增的modem模块,如MPSS.DE.3.1.1\modem_proc\AAA, 目的是看代码方便一些,可以自由搜索各种关键字。但导入该项目时出现了如下错误: The project '***' is not a Gradle-based project.造成的问题: (1) project 下没有代码,而