《Few-Shot Named Entity Recognition: A Comprehensive Study》论文笔记

2023-10-18 05:40

本文主要是介绍《Few-Shot Named Entity Recognition: A Comprehensive Study》论文笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Few-Shot Named Entity Recognition: A Comprehensive Study

最近发现读论文get idea有点困难,不如参考大佬的笔记来做做总结,今天主要总结一下few-shot NER,这是一篇few-shot NER的综述《Few-Shot Named Entity Recognition: A Comprehensive Study》

1. Motivation

NER一种经典的方法是在PLM提供的表示之上添加一个线性分类器,并在域标签上使用交叉熵目标来微调整个模型,该方法很简单,且在几个基准上提供了强有力的结果。

但即使有了这些PLM,构建NER系统仍然是一项劳动密集型、耗时的任务。注释大量的域内标记标记语料库,需要丰富的领域知识和专家经验。然而,这与现实世界的应用程序场景形成了对比,后者只有非常有限数量的标记数据可用于新域。因此本文研究了一个具有挑战性但实际的研究问题:few-shot NER。本文做法如下:
在这里插入图片描述

  1. 创建原型作为不同实体类型的表示,并通过最近邻标准分配标签(we create prototypes as the representations for different entity types, and assign labels via the nearest neighbor criterion)
  2. 不断地使用带有噪声标签的web数据进行预训练,这些数据可以大量使用,以提高NER的准确性和鲁棒性(we continuously pre-train PLMs using web data with noisy labels that is available in much larger quantities to improve NER accuracy and robustness)
  3. 使用未标记的域内标记,使用自训练来预测它们的软标签,并结合有限的标记数据进行半监督学习。(we employ unlabeled in-domain tokens to predict their soft labels using self-training, and perform semi-supervised learning in conjunction with the limited labeled data)

2. Contribution

  1. 第一次对前人很少研究的few-shot NER方面进行了系统的研究,并提出了三种不同的方案及其组合。(We present the first systematic study for few-shot NER, a problem that is previously little explored in the literature. Three distinctive schemes and their combinations are investigated.)
  2. 对来自不同领域的10个公共NER数据集对这些方案进行了综合比较。(We perform comprehensive comparisons of these schemes on 10 public NER datasets from different domains.)
  3. 与现有的在少镜头和无训练的NER设置上的方法相比,本文所提出的方案简单且实现了SoTA性能。(Compared with existing methods on few-shot and training-free NER settings , the proposed schemes achieve SoTA performance despite their simplicity.)

3. Background on Few-shot NER

3.1 Few-shot NER

一个序列标注任务,输入长度为 T , X = [ x 1 , x 2 , . . . , x T ] T,X=[x_1,x_2,...,x_T] T,X=[x1,x2,...,xT],输出为相应的 T T T长度标记序列 Y = [ y 1 , y 2 , . . . , y T ] , y ∈ Y Y=[y_1,y_2,...,y_T],y∈Y Y=[y1,y2,...,yT],yY是一个热向量,指示来自预定义的离散标签空间的每个标记的实体类型。

NER的训练数据集通常由成对数据 D L = { ( X n , Y n ) } n = 1 N D^L=\{(X_n,Y_n)\}^N_{n=1} DL={(Xn,Yn)}n=1N组成,其中N是训练示例的数量。传统的NER系统是在标准的监督学习范式中进行训练的,这通常需要大量的成对例子,即N很大。在现实世界的应用程序中,更有利的场景是为每种实体类型只给出少量的标记示例(N很小),因为扩展标记数据增加了注释成本,降低了客户参与度,这就产生了few-shot NER这个挑战性的任务。

3.2 Linear Classifier Fine-tuning

在 NER 领域中常用的基于预训练模型的 Pipeline 方法是将预训练模型作为特征提取器,在预训练模型之后直接添加一层 Linear 和 Softmax,训练的时候调整 Linear 的参数,预训练模型的参数可以选择训练也可以选择保持不变。

4. Few-shot NER 三个问题

可能有人会问为什么要将 Few-shot 应用到 NER 中,毕竟 NER 可以通过一些远程监督的方法获取到 NER 标注样本,但是远程监督方法存在一定问题。

4.1 利用远程监督方法构建NER标注数据存在的问题
  • 远程监督方法获取到的样本会存在很多噪声;
  • 无法保证远程监督标注的领域完全适应以及词表的完整性(实体OOV的问题)

因此将 Few-shot 方法应用 NER 也是一个很值得研究的方向。

4.2 将 few shot learning 应用于 NER 领域中需要面临的三个核心问题
  1. How to adapt meta-learning such as prototype-based methods for few-shot NER? (如何将元学习方法作为 prototype-based 的方法应用到 few-shot NER 领域中?)
  2. How to leverage freely-available web data as noisy supervised pre-training data?(如何利用大量免费可用的网页数据构造出 noisy supervised 方法中的预训练数据?)
  3. How to leverage unlabeled in-domain sentences in a semi-supervised manner?(如何在半监督的范式中利用好 in-domain 的无标注数据?)

5. Methods

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-smACyimd-1641432530439)(C:\Users\WHS\AppData\Roaming\Typora\typora-user-images\image-20220106090413076.png)]

5.1 Prototype-based Methods

基于 meta-learning 方法的 few-shot 方法(meta-learning 的核心思想:让模型在多个具有大量标注数据的任务上学习,从而具备泛化到某个只有少量标注数据的任务上)

  1. 定义两个集合 S 和 Q:

    s u p p o r t s e t S = { ( X i , Y i ) } i = 1 M × K support set S=\{(X_i,Y_i)\}^{M×K}_{i=1} supportsetS={(Xi,Yi)}i=1M×K

    q u e r y s e t Q = { ( X ^ i , Y ^ i ) } i = 1 M × K ′ query set Q=\{(\hat X_i,\hat Y_i)\}^{M×K'}_{i=1} querysetQ={(X^i,Y^i)}i=1M×K

    Support set(M 个 entity types, 每个 entity types 有 K/K’ 个 sentence);

  2. Prototypes:在与单个 token 相同的表示空间中将 entity type 表示为向量;(也就是把 label 映射为对应的向量,向量的构造方法是将所有属于该类别的 token 向量求和平均。)

    c m = 1 ∣ S m ∣ ∑ x ∈ S m f θ 0 ( x ) c_m=\frac{1}{|S_m|}\sum_{x∈S_m}f_{\theta_0}(x) cm=Sm1xSmfθ0(x)

  3. 对于一个新输入的 token 来说,将其输入模型后得到的输出和所有 prototypes 进行距离计算;

    q ( y = I m ∣ x ) = exp ⁡ ( − d ( f θ 0 ( x ) , c m ) ) ∑ m ′ exp ⁡ ( − d ( f θ 0 ( x ) , c m ′ ) ) q(y=I_m|x)=\frac{\exp(-d(f_{\theta_0}(x),c_m))}{\sum_{m'}\exp(-d(f_{\theta_0}(x),c_{m'}))} q(y=Imx)=mexp(d(fθ0(x),cm))exp(d(fθ0(x),cm))

  4. 训练过程中 support set 中的 entity type 会通过采样不断迭代变化,infer过程中 则是对新的 token 使用最近邻(NN)算法计算最接近的那个类别。

5.2 Noisy Supervised Pre-training
  • 动机

通过预训练模型可以用于获取每个句子甚至每个 token 的 embedding 表示。但这些表示有个特点就是他们对于所有下游任务都是不可知的,也就是说预训练模型在预训练过程中对待每个 token 都是一致的。但是很多下游任务中,对某些特定的 token 需要有特别的处理。

eg:在 NER 任务中,对于“Mr. Bush asked Congress to raise to $ 6 billion”这句话,模型需要能够辨认出“Congress”是一个 entity,而“to”只是一个普通的 token。

如何能让预训练模型具备这种识别实体的能力呢?

  • 方法: 利用**大规模带噪声的网页数据(WiNER)来进行噪声监督预训练(noisy supervised pre-training)**的方法。
  • 思路: 在 WiNER 中,包含着相较于下游任务更为丰富的实体类型,比如“Musician”和“Artist”通常表示的是两种不同的实体类型,而在常见的 NER 评测标准中二者都被归类为“Person”类型。(有点像是颗粒度)
  • 优点: 使用大规模带噪声的数据预训练模型时,模型既可以学到区分实体的能力,又不会学到和下游任务完全一致的信息导致模型过拟合
5.3 Self-training

类型: 半监督学习方法

特点: 利用到了大量无标注数据和少量标注数据

思路:

  1. 先通过标注数据学习一个 teacher 模型;
  2. 通过 teacher 模型给无标注数据进行标注 soft 标签;
  3. 使用标注数据和具有 soft 标签的数据训练 student 模型

6. Experiment

  • backbone network:pre-trained base RoBERTa
  • dataset:
    图片
6.1 Results
  • LC :linear classifier fine-tuning(fine-tuning 整个模型)
  • P :prototype-based method
  • NSP :noisy supervised pre-training
  • ST:self-training
  • 通过比较第 1 列和第 2 列(或比较第 3 列和第 3 列),可以看出在大多数数据集中(特别是在 5-shot 的设置下)噪声监督预训练取得了最好的结果,这表明 NSP 任务赋予了模型更强的提取 NER 相关特征的能力。
  • 第 1 列和第 3 列之间的比较的是 LC 和基于原型的方法之间的差别:虽然基于原型的方法在 5-shot 中比 LC 在 CoNLL、WikiGold、WNUT17 和 Mul-tiwoz 上获得了更好的性能,但在其他数据集和平均统计数据上,它不如 LC,说明基于原型的方法只有在标记数据非常有限的情况下才能产生更好的结果。
  • 当比较第 5 列和第 1 列(或比较第 6 列和第 2 列)时,可以看到使用 Self-Training 始终比仅使用标记数据进行微调更有效,这表明 ST 是能够有效利用域内未标记数据的方法。
  • 第 6 列则展示了大多数情况下 F1 的最高分数,表明本文提出的三个方案是相互补充的,并且可以结合起来在实践中产生最佳结果。
6.2 研究结果总结
  1. 有噪声监督的预训练可以显著提高NER的准确性(Noisy supervised pre-training can significantly improve NER accuracy, and we will release our pre-trained checkpoints.)
  2. 当未标记数据和标记数据之间的数据量比例较高时,自我训练可以持续提高少镜头学习(Self-training consistently improves few-shot learning when the ratio of data amounts between unlabeled and labeled data is high. )
  3. 原型学习的性能在不同的数据集上有所不同。当标记的示例数量较少,或者在无训练设置中给出新的实体类型时,它很有用。(The performance of prototype learning varies on different datasets. It is useful when the number of labeled examples is small, or when new entity types are given in the training-free settings.)

参考杨夕

这篇关于《Few-Shot Named Entity Recognition: A Comprehensive Study》论文笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/230537

相关文章

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

操作系统实训复习笔记(1)

目录 Linux vi/vim编辑器(简单) (1)vi/vim基本用法。 (2)vi/vim基础操作。 进程基础操作(简单) (1)fork()函数。 写文件系统函数(中等) ​编辑 (1)C语言读取文件。 (2)C语言写入文件。 1、write()函数。  读文件系统函数(简单) (1)read()函数。 作者本人的操作系统实训复习笔记 Linux

LVGL快速入门笔记

目录 一、基础知识 1. 基础对象(lv_obj) 2. 基础对象的大小(size) 3. 基础对象的位置(position) 3.1 直接设置方式 3.2 参照父对象对齐 3.3 获取位置 4. 基础对象的盒子模型(border-box) 5. 基础对象的样式(styles) 5.1 样式的状态和部分 5.1.1 对象可以处于以下状态States的组合: 5.1.2 对象

DDS信号的发生器(验证篇)——FPGA学习笔记8

前言:第一部分详细讲解DDS核心框图,还请读者深入阅读第一部分,以便理解DDS核心思想 三刷小梅哥视频总结! 小梅哥https://www.corecourse.com/lander 一、DDS简介         DDS(Direct Digital Synthesizer)即数字合成器,是一种新型的频率合成技术,具有低成本、低功耗、高分辨率、频率转换时间短、相位连续性好等优点,对数字信

数据库原理与安全复习笔记(未完待续)

1 概念 产生与发展:人工管理阶段 → \to → 文件系统阶段 → \to → 数据库系统阶段。 数据库系统特点:数据的管理者(DBMS);数据结构化;数据共享性高,冗余度低,易于扩充;数据独立性高。DBMS 对数据的控制功能:数据的安全性保护;数据的完整性检查;并发控制;数据库恢复。 数据库技术研究领域:数据库管理系统软件的研发;数据库设计;数据库理论。数据模型要素 数据结构:描述数据库

【软考】信息系统项目管理师(高项)备考笔记——信息系统项目管理基础

信息系统项目管理基础 日常笔记 项目的特点:临时性(一次性)、独特的产品、服务或成果、逐步完善、资源约束、目的性。 临时性是指每一个项目都有确定的开始和结束日期独特性,创造独特的可交付成果,如产品、服务或成果逐步完善意味着分步、连续的积累。例如,在项目早期,项目范围的说明是粗略的,随着项目团队对目标和可交付成果的理解更完整和深入时,项目的范围也就更具体和详细。 战略管理包括以下三个过程

【软考】信息系统项目管理师(高项)备考笔记——信息化与信息系统

信息化与信息系统 最近在备考信息系统项目管理师软考证书,特记录笔记留念,也希望可以帮到有需求的人。 因为这是从notion里导出来的,格式上可能有点问题,懒的逐条修改了,还望见谅! 日常笔记 核心知识 信息的质量属性:1.精确性 2.完整性 3.可靠性 4.及时性 5.经济性 6.可验证下 7.安全性 信息的传输技术(通常指通信、网络)是信息技术的核心。另外,噪声影响的是信道

flex布局学习笔记(flex布局教程)

前端笔试⾯试经常会问到:不定宽⾼如何⽔平垂直居中。最简单的实现⽅法就是flex布局,⽗元素加上如下代码即 可: display: flex; justify-content: center; align-items :center; 。下⾯详细介绍下flex布局吧。   2009年,W3C提出了 Flex布局,可以简便⼂完整⼂响应式地实现各种页⾯布局。⽬前已得到了所有浏览器的⽀持,这意味着,现