论文:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification

本文主要是介绍论文:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

个人目前感觉,可借鉴意义不大。

前言

利用类型描述信息在zero-shot任务中,完成NERC任务。
没咋看懂。
存在问题:(1)每个class的description是如何构建的?

模型

将NER任务建模为多分类任务,预测每个token w的正确class。
argmax F (s,w,d),s是sentence,w是token,d是description .
模型encoder部分的输入是:【CLS】s【SEP】d【SEP】。

每个token的表示可以通过如下得到:
X-ENC是跨注意力编码。
在这里插入图片描述
在这里插入图片描述
token_t 的每种类型的score表示为:
在这里插入图片描述
在确定entity的class时,选择经过softmax之后的概率最大的那一个。

在这里插入图片描述

创新点

我觉得论文的创新点可能也就是negative class的建模问题。文中考虑到在train阶段是non-entity的token可能在test阶段是entity。
计算token 是neg的方式,文中提出了三种,

i) using a (textual) description for the negative class,
(ii) modelling the negative class directly,
(iii) modelling the negative class using the representations
generated for the classes corresponding to types

第一种舍掉,因为description是固定的,很难找到合适的description。
第二种,直接encoder编码sent得到sent中每个token是neg的表示。
第三种,借用其他class的represention,得到neg class 的表示,应用了max pool得到neg class的表示,在通过linear 变换,得到分值。(但这种操作似乎也是作者自己提出的,也没有其他参考。。。)

we propose to model the negative
class by combining the representations generated
for the other classes, as generated by the crossattention encoder (Eq. 1): vt,c0, …, vt,ck. Each
vector is then linearly transformed, using wneg−cl
and then concatenated to a feature map m. We
then apply a max-pooling operation over this feature set and take the maximum value:
ot,neg−cl = max{m}. (7)
Finally, we compute ot,neg by linearly combining
the representation from the independent encoding
and ot,neg−cl.
在这里插入图片描述

训练

在这里插入图片描述

这篇关于论文:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/241646

相关文章

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Oracle type (自定义类型的使用)

oracle - type   type定义: oracle中自定义数据类型 oracle中有基本的数据类型,如number,varchar2,date,numeric,float....但有时候我们需要特殊的格式, 如将name定义为(firstname,lastname)的形式,我们想把这个作为一个表的一列看待,这时候就要我们自己定义一个数据类型 格式 :create or repla

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需