BiLSTM上的CRF,用命名实体识别任务来解释CRF(4)

2024-06-21 08:58

本文主要是介绍BiLSTM上的CRF,用命名实体识别任务来解释CRF(4),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:CreateMoMo

编译:ronghuaiyang

导读

今天给大家介绍一下具体的代码实现。

3 Chainer实现

在本节中,我将解释代码的结构。此外,还将给出实现CRF损失层的一个重要技巧。最后,会公布Chainer(2.0版)实现的源代码。

3.1 总体结构

可以看到,代码主要包括三个部分:初始化、损失计算和句子的预测标签。(完整的代码将在下一篇文章中发布)

class My_CRF():def __init__():#[Initialization]'''Randomly initialize transition scores'''def __call__(training_data_set):#[Loss Function]Total Cost = 0.0#Compute CRF Loss'''for sentence in training_data_set:1) The real path score of current sentence according the true labels2) The log total score of all the possbile paths of current sentence3) Compute the cost on this sentence using the results from 1) and 2)4) Total Cost += Cost of this sentence'''return Total Costdef argmax(new sentences):#[Prediction]'''Predict labels for new sentences'''
3.2 增加两个额外的标签(START和END)

如2.2节所述,在transition评分矩阵中,我们添加了两个START和END标签。当我们计算某句话的损失时,这将影响transition得分矩阵的初始化和emission得分矩阵的值。

[Example]

假设在我们的数据集中,我们只有一种类型的命名实体PERSON,因此我们实际上有三个标签(不包括开始和结束):B-PERSON、I-PERSON和O。

Transition得分举证

在添加了两个额外的标签(START和END)之后,当我们在init函数中初始化transition分数时,我们这样做:

n_label = 3 #B-PERSON, I-PERSON AND O
transitions = np.array(value, dtype=np.float32)

value的形状是(n_label + 2, n_label + 2),2是START和END的数量。另外,“value”的值是随机生成的。

Emission得分矩阵

你应该知道,BiLSTM层的输出是[2.1]中描述的句子的transition分数。例如,我们的句子有3个单词,BiLSTM的输出应该是这样的:

添加了额外的START和END标签后,emission分数矩阵为:

如上表所示,我们通过添加两个单词(start和end)及其对应的标签(START和END)来扩展排放emission矩阵。BiLSTM层的输出不包括新增单词的emission分数,但是我们可以手动指定这些分数(即 和)。单词“start”上的其他标签的emission分数应该是一个小的值(例如-1000)。如果你想再设置一个小的值,这是完全可以的,不会影响我们模型的性能。

3.3 更新整个结构

基于上面的解释,这里有一个更详细的伪代码:

class My_CRF():def __init__(n_label):#[Initialization]'''1) Randomly initialize transition score matrix.The shape of this matrix is (n_label+2, n_label+2).n_labels is the number of named entity classes in our dataset (e.g. B-Person, I-Person, O).2 is the number of our added labels (i.e. START and END).2) Moreover, we also set the small value as -1000 here.'''def __call__(training_data_set):#[Loss Function]Total Cost = 0.0#Compute CRF Lossfor sentence in training_data_set:'''1) Extend the emission score matrix by adding words(start and end)and adding labels(START and END)2) Compute the real path score of current sentence according thetrue labels (p 2.4)3) Compute the log total score of all the possbile paths of currentsentence (p 2.5)4) Compute the cost on this sentence using the results from 2)and 3) that is -(real_path_score - all_path_score). (p 2.5)5) Total Cost += the cost of current sentence'''return Total Costdef argmax(new sentences):#[Prediction]for sentence in new_sentences:'''1) Extend the emission score matrix by adding words(start and end)and adding labels(START and END)2) Predict the labels for the current new sentence (p 2.6)'''
3.4 Demo

在这一节中,我们将造两个假句子,分别只有2个单词和1个单词。此外,我们还会随机生成他们的真实答案。最后,我们将展示如何使用Chainer v2.0训练CRF层。包括CRF层在内的所有代码都是来自GitHub:https://github.com/createmomo/CRF-Layer-on-the-Top-of-BiLSTM。

首先,我们导入自己的CRF层含义,' MyCRFLayer '。

import numpy as np
import chainer
import MyCRFLayer

在我们的数据集中我们只有两个标签(例如B-Person, O)

n_label = 2

下面的代码块生成两个句子,xs = [x1, x2]。句子x1有两个单词,x2只有一个单词。

a = np.random.uniform(-1, 1, n_label).astype('f')
b = np.random.uniform(-1, 1, n_label).astype('f')
x1 = np.stack([b, a])
x2 = np.stack([a])
xs = [x1, x2]

应该注意的是,x1和x2的元素不是词嵌入,而是BiLSTM层的emission分数,这里没有实现。

例如,在x1句子中,我们有两个单词w0和w1,而x1是一个形状为(2, 2)的矩阵。第一个“2”表示它有两个单词,第二个“2”表示我们的数据集中有两个标签,如下表所示。

接下来,我们应该有这两个句子的真正标签。

ys = [np.random.randint(n_label,size = x.shape[0],dtype='i') for x in xs]
print('Ground Truth:')
for i,y in enumerate(ys):print('\tsentence {0}: [{1}]'.format(str(i),' '.join([str(label) for label in y])))

这里是随机生成的ground truth。

Ground Truth:sentence 0: [0 0]sentence 1: [1]

虽然我们并没有真正的BiLSTM层,但这并不会影响我们展示如何在chainer中训练一个模型。我们模拟了BiLSTM层的输出和真实答案。因此,我们可以使用一些优化器来优化CRF层。

在本文中,我们使用了随机梯度下降法来训练我们的模型。(如果你现在不熟悉训练方法,你可以以后再学。)这个优化器将根据我们的CRF层根据预测标签和ground truth标签之间的损失来更新参数(即transition矩阵)。

from chainer import optimizers
optimizer = optimizers.SGD(lr=0.01)
optimizer.setup(my_crf)
optimizer.add_hook(chainer.optimizer.GradientClipping(5.0))

CRF层通过标签的数量来初始化(不包括额外添加的开始和结束)。

my_crf = MyCRFLayer.My_CRF(n_label)

然后我们可以开始训练CRF层。

print('Predictions:')
for epoch_i in range(201):with chainer.using_config('train', True):loss = my_crf(xs,ys)# update parametersoptimizer.target.zerograds()loss.backward()optimizer.update()with chainer.using_config('train', False):if epoch_i % 50 == 0:print('\tEpoch {0}: (loss={1})'.format(str(epoch_i),str(loss.data)))for i, prediction in enumerate(my_crf.argmax(xs)):print('\t\tsentence {0}: [{1}]'.format(str(i), ' '.join([str(label) for label in prediction])))

正如我们的代码输出所示,损失正在减少,CRF层正在学习(预测正在变得正确)。

Predictions:Epoch 0: (loss=3.06651592255)sentence 0: [1 1]sentence 1: [1]Epoch 50: (loss=1.96822023392)sentence 0: [1 1]sentence 1: [1]Epoch 100: (loss=1.51349794865)sentence 0: [0 0]sentence 1: [1]Epoch 150: (loss=1.27118945122)sentence 0: [0 0]sentence 1: [1]Epoch 200: (loss=1.09977662563)sentence 0: [0 0]sentence 1: [1]
3.5 GitHub

demo和CRF层代码可以在GitHub上找到。代码可能并不完美。因为为了便于理解,一些实现非常简单。我相信它可以被优化成一个更有效的算法。

—END—

英文原文:https://createmomo.github.io/2017/12/07/CRF-Layer-on-the-Top-of-BiLSTM-8/

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于BiLSTM上的CRF,用命名实体识别任务来解释CRF(4)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080770

相关文章

Python Invoke自动化任务库的使用

《PythonInvoke自动化任务库的使用》Invoke是一个强大的Python库,用于编写自动化脚本,本文就来介绍一下PythonInvoke自动化任务库的使用,具有一定的参考价值,感兴趣的可以... 目录什么是 Invoke?如何安装 Invoke?Invoke 基础1. 运行测试2. 构建文档3.

解决Cron定时任务中Pytest脚本无法发送邮件的问题

《解决Cron定时任务中Pytest脚本无法发送邮件的问题》文章探讨解决在Cron定时任务中运行Pytest脚本时邮件发送失败的问题,先优化环境变量,再检查Pytest邮件配置,接着配置文件确保SMT... 目录引言1. 环境变量优化:确保Cron任务可以正确执行解决方案:1.1. 创建一个脚本1.2. 修

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

FreeRTOS学习笔记(二)任务基础篇

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 任务的基本内容1.1 任务的基本特点1.2 任务的状态1.3 任务控制块——任务的“身份证” 二、 任务的实现2.1 定义任务函数2.2 创建任务2.3 启动任务调度器2.4 任务的运行与切换2.4.1 利用延时函数2.4.2 利用中断 2.5 任务的通信与同步2.6 任务的删除2.7 任务的通知2

Flink任务重启策略

概述 Flink支持不同的重启策略,以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略,该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。常用的重启策略: 固定间隔 (Fixe