基于卷积注意力神经网络的命名实体识别(CAN-NER)

2024-03-06 10:32

本文主要是介绍基于卷积注意力神经网络的命名实体识别(CAN-NER),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition(NAACL-HLT 2019)

论文要点

该论文提出过去基于词向量和词典中的几个问题:

  1. 模型结果会受词向量和词典覆盖好坏的影响【迁移问题】
  2. 会存在OOV的问题,而命名实体大多为OOV
  3. 词向量会极大增大模型大小【Embeddings Size一直是大头】,使得Finetune训练更难
  4. 没有足够大量的标注数据难以学习好词向量
  5. 大词典会占用大内存和耗时用于特征计算【额,这个应该影响很小】
  6. 词典太大时,难以清除词典中的脏数据【确实很多是noise word】
  7. 词向量和词典训练后难以更新【这个关键】

模型框架

 

  • Convolutional Attention Layer
  1. 目的在于encode char和潜在词【encode the sequence of input characters and implicitly group meaning- related characters in the local context】
  2. 每个字符x=[char ; BMES;pos]组成
  3. 感觉文章表述的Conv Attention就是一个窗口大小为kernel size的Local的Self-Attention而已:

          attention权值由输入emb计算

           得到权值后对emb进行加权求和,就是这一层的输出了

             然后这里说有多个kenel,结果算完后进行sum-pool,但感觉也就是一个multi-head

  • BiGRU-CRF with Global Attention
  1. 卷积层后的输出作为BiGRU的输入
  2. BiGRU输出后加一层最经典的Attention层【在机器翻译Attention那篇经典文章的】
  3. 然后拼接BiGRU输出和Attention输出,经线性变换后输入CRF

模型效果

 

模型优缺点

  1. 文章没有使用word emb,而是直接使用分词边界BMES作为char的特征输入到模型中,确实有一定的作用,不过,这样模型是要基于分词的,这又与基于词典的模型不同
  2. 感觉这里的Attention只是为了强行套上去的,尤其是最后一层BiGRU还要加Attention,实验也没说明这个作用体现在哪?
  3. 而在效果上,其实这个模型对比Lattice-LSTM提升很小

这篇关于基于卷积注意力神经网络的命名实体识别(CAN-NER)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/779771

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 自注意力机制(Self-Attention)是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性,

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

【Tools】大模型中的注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 在大模型中,注意力机制是一种重要的技术,它被广泛应用于自然语言处理领域,特别是在机器翻译和语言模型中。 注意力机制的基本思想是通过计算输入序列中各个位置的权重,以确

机器学习之监督学习(三)神经网络

机器学习之监督学习(三)神经网络基础 0. 文章传送1. 深度学习 Deep Learning深度学习的关键特点深度学习VS传统机器学习 2. 生物神经网络 Biological Neural Network3. 神经网络模型基本结构模块一:TensorFlow搭建神经网络 4. 反向传播梯度下降 Back Propagation Gradient Descent模块二:激活函数 activ

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示: 此时只需要右击项目,或者你的源代码目录,将这个项目或者源码目录标记为项目源和头文件即可。 英文如下:

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04