Hybrid attention-based prototypical networks for noisy few-shot relation

本文主要是介绍Hybrid attention-based prototypical networks for noisy few-shot relation，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Gao [9] 等人提出文本与图像的一大区别在于其多样性和噪音更大，因此提出一种基于混合注意力的原型网络结构，如图 9 所示，首先使用 instance-level 的 attention 从支撑集中选出和 query 更为贴近的实例，同时降低噪声实例所带来的影响。

然后 feature-level 的实例能够衡量特征空间中的哪些维度对分类更为重要，从而为每种不同的关系都生成相适应的距离度量函数，从而使模型能够有效处理特征稀疏的问题。

此外，在AAAI2019的一篇论文中《Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification》，作者指出很多NLP领域的few-shot learning问题，因为文本本身的噪声更多，空间更复杂。因此，在prototype network的基础上提出了一种减少噪声干扰的模型。主要思想是包含两个level的attention：

instance level attention: 普通的protype network针对支撑集中各个样本进行直接平均，作者认为这样会噪声特别大，因此引入加权平均的思想。
feature level attention: 原始的prototype network直接利用简单的欧氏距离作为距离函数，而本文作者认为在利用支撑集中样例对测试样例进行分类时，某些feature可能对分类至关重要，因此在feature这个层级也要考虑注意力机制。
【利用实例attention来选择support集中最有价值的样本，来缓解噪声样本对模型的影响。】
【利用特征attention来突出特征空间中重要的特征维度，来缓解特征稀疏问题。】
【实验表明，该模型在训练过程中加快了收敛的速度。】

参考一：https://www.jianshu.com/p/395d01c1eab5

参考二：https://blog.csdn.net/m0_38031488/article/details/90517760

会议：AAAI 2019
论文链接：https://gaotianyu1350.github.io/assets/aaai2019_hatt_paper.pdf
源码链接：https://github.com/thunlp/HATT-Proto

1 介绍

问题现状：使用 DS 可获取大量数据，但其范围比较局限，还存在稀疏数据的问题（例如，long-tail relations）；现有的 FSL 模型都在 low-noise 的图像数据集上实验，无法处理多样性和含有较多噪声的文本数据。
（1）噪声数据：支持集中很少的噪声可以引起关系特征向量的巨大偏差（因为传统的原型由样本特征的简单平均算出）
（2）稀疏特征：对于一个关系特征向量，并不是所有的维度都对最终的分类结果具有明显的区分/决定作用。
本文方法：提出了基于混合注意力机制的原型网络（hybrid attention-based prototypical networks），包括 instance-level attention 与 feature-level attention，分别解决上述两个问题；该方法提高了在含有噪声的 FSL 场景下（noisy FSL scenario）关系分类（RC）模型的性能与鲁棒性，并且加快了 RC 模型的收敛。

N-way K-shot

原文相关描述如下：

Little noise in the support set may cause a huge deviation of relation features, and not all dimensions of relation features in the space are discrimiative enough to support final classification. Our hybrid attentions are specially designed to alleviate the influence of noisy data and sparse features.

The instance-level attention module is to select more informative instances in the support set and denoise those noisy instances during training.
The feature-level attention module can highlight important dimensions in the feature space and formulate specific distance functions for different relations, which enables our model to alleviate the problem of feature sparsity.

即 instance-level attention 倾向于选择支持集中包含信息较多的那些实例，同时对训练数据进行降噪处理（降低噪声实例的权重）；feature-level attention 则强调了特征空间中比较重要的那些维度，为不同的关系类型制定不同的距离函数，从而缓解了特征稀疏的问题。

2 相关工作

关系分类

小样本学习

3 方法论

3.1 符号与定义

小样本关系分类任务描述：给定一个关系集 R 和一个支持集 S，预测查询样本（query instance）x 中的实体对 (h, t) 之间的关系 r。S 的定义如下：

在小样本学习的场景下，关系 ri 所包含的样本数量 ni 通常较小（一般小于20）。在术语 N-way K-shot 中，N 表示一个 episode 中支持集有多少个关系，K 表示每个关系包含多少个样本，即：

3.2 框架

3.3 HATT的实现

由于 Instance Encoder 和 Prototypical Networks 的实现比较简单，该笔记暂时略过，下面详细介绍 HATT 的实现步骤。

3.3.1 Instance-level Attention（IATT）

对于关系 i，其样本数量为 ni，其原型的特征向量为 ci，j 表示第 i 个关系中第 j 个样本（1 ≤ j ≤ ni），αj 表示第 j 个样本的权重， xij 表示第 i 个关系中第 j 个样本经过编码后得到的特征向量。公式如下：

αj 由Softmax函数得到（ej 作为相应的参数）；x 为 query 样本的特征向量，g(·) 表示对 xij 和 x 进行线性变换，再进行点乘操作（element-wise production），σ(·) 为激活函数，这里选用 tanh，将点乘结果映射到 [-1, 1] 之间，sum{·} 表示对向量里的所有元素求和。详细公式如下：

使用了 IATT 后，与 query 样本具有更多相似特征的 support 样本将会获得更高的权重，最后的原型也会与这些 support 样本更接近。

3.3.2 Feature-level Attention（FATT）

在 Euclidean 距离的基础上，乘以一个值 zi，得到一个新的距离度量，公式如下：

对于关系 ri，对其 K 个样本的特征向量进行 3 次卷积操作，得到 zi，具体计算流程如下图所示：

注意，卷积时采用了 padding 策略，以此来保证最终得到的 zi 大小为 1 * dh * 1。卷积操作的参数设置代码如下：

4 实验

为了表明混合注意力机制在有噪声数据的情况下能够让网络有较好的鲁棒性，我们采用了 4 个级别的 noise_rate：0、10%、30%、50%，也就是说，在训练和测试时，support set 中正确的句子有相应噪声率的可能性被替换成其他句子，该其他句子的 label 与原 label 不一样即可。

# 返回一个或一组服从0~1均匀分布的随机样本值
prob = np.random.rand()
if prob < noise_rate:# 替换操作

4.1 结果

4.2 IATT的影响

4.3 FATT的影响

5 未来工作

将混合注意力机制与其他 FSL 模型结合，并且使用更多的神经网络编码器，来让我们的模型更具有一般性。

作者：一只椰子啊嘻嘻嘻
链接：https://www.jianshu.com/p/395d01c1eab5
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这篇关于Hybrid attention-based prototypical networks for noisy few-shot relation的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Hybrid attention-based prototypical networks for noisy few-shot relation

1 介绍

2 相关工作

3 方法论

3.1 符号与定义

3.2 框架

3.3 HATT的实现

4 实验

4.1 结果

4.2 IATT的影响

4.3 FATT的影响

5 未来工作

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

什么是 Flash Attention

SAM2POINT：以zero-shot且快速的方式将任何 3D 视频分割为视频

速通GPT-3：Language Models are Few-Shot Learners全文解读

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

A Comprehensive Survey on Graph Neural Networks笔记

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

Neighborhood Homophily-based Graph Convolutional Network

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

Android Studio打开Modem模块出现：The project ‘***‘ is not a Gradle-based project