NLP(五十四)在Keras中使用英文Roberta模型实现文本分类

2023-11-09 03:50

本文主要是介绍NLP(五十四)在Keras中使用英文Roberta模型实现文本分类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  英文Roberta模型是2019年Facebook在论文RoBERTa: A Robustly Optimized BERT Pretraining Approach中新提出的预训练模型,其目的是改进BERT模型存在的一些问题,当时也刷新了一众NLP任务的榜单,达到SOTA效果,其模型和代码已开源,放在Github中的fairseq项目中。众所周知,英文Roberta模型使用Torch框架训练的,因此,其torch版本模型最为常见。
  当然,torch模型也是可以转化为tensorflow模型的。本文将会介绍如何将原始torch版本的英文Roberta模型转化为tensorflow版本模型,并且Keras中使用tensorflow版本模型实现英语文本分类。
  项目结构如下图所示:
项目结构图

模型转化

  本项目首先会将原始torch版本的英文Roberta模型转化为tensorflow版本模型,该部分代码主要参考Github项目keras_roberta。
  首先需下载Facebook发布在fairseq项目中的roberta base模型,其访问网址为: https://github.com/pytorch/fairseq/blob/main/examples/roberta/README.md。
Roberta模型
运行convert_roberta_to_tf.py脚本,将torch模型转化为tensorflow模型。具体代码不在此给出,可以参考文章后续给出的Github项目地址。
  在模型的tokenizer方面,将RobertaTokenizer改为GPT2Tokenizer,因为RobertaTokenizer是继承自GPT2Tokenizer的,两者相似性很高。测试原始torch模型和tensorflow模型的表现,代码如下(tf_roberta_demo.py):

import os
import tensorflow as tf
from keras_roberta.roberta import build_bert_model
from keras_roberta.tokenizer import RobertaTokenizer
from fairseq.models.roberta import RobertaModel as FairseqRobertaModel
import numpy as np
import argparseif __name__ == '__main__':roberta_path = 'roberta-base'tf_roberta_path = 'tf_roberta_base'tf_ckpt_name = 'tf_roberta_base.ckpt'vocab_path = 'keras_roberta'config_path = os.path.join(tf_roberta_path, 'bert_config.json')checkpoint_path = os.path.join(tf_roberta_path, tf_ckpt_name)if os.path.splitext(checkpoint_path)[-1] != '.ckpt':checkpoint_path += '.ckpt'gpt_bpe_vocab = os.path.join(vocab_path, 'encoder.json')gpt_bpe_merge = os.path.join(vocab_path, 'vocab.bpe')roberta_dict = os.path.join(roberta_path, 'dict.txt')tokenizer = RobertaTokenizer(gpt_bpe_vocab, gpt_bpe_merge, roberta_dict)model = build_bert_model(config_path, checkpoint_path, roberta=True)  # 建立模型,加载权重# 编码测试text1 = "hello, world!"text2 = "This is Roberta!"sep = [tokenizer.sep_token]cls = [tokenizer.cls_token]# 1. 先用'bpe_tokenize'将文本转换成bpe tokenstokens1 = cls + tokenizer.bpe_tokenize(text1) + septokens2 = sep + tokenizer.bpe_tokenize(text2) + sep# 2. 最后转换成idtoken_ids1 = tokenizer.convert_tokens_to_ids(tokens1)token_ids2 = tokenizer.convert_tokens_to_ids(tokens2)token_ids = token_ids1 + token_ids2segment_ids = [0] * len(token_ids1) + [1] * len(token_ids2)print(token_ids)print(segment_ids)print('\n ===== tf model predicting =====\n')our_output = model.predict([np.array([token_ids]), np.array([segment_ids])])print(our_output)print('\n ===== torch model predicting =====\n')roberta = FairseqRobertaModel.from_pretrained(roberta_path)roberta.eval()  # disable dropoutinput_ids = roberta.encode(text1, text2).unsqueeze(0)  # batch of size 1print(input_ids)their_output = roberta.model(input_ids, features_only=True)[0]print(their_output)

输出结果如下:

[0, 42891, 6, 232, 328, 2, 2, 713, 16, 1738, 102, 328, 2]
[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]===== tf model predicting =====
[[[-0.01123665  0.05132651 -0.02170264 ... -0.03562857 -0.02836962-0.00519008][ 0.04382067  0.07045364 -0.00431021 ... -0.04662359 -0.107701670.1121687 ][ 0.06198474  0.05240346  0.11088232 ... -0.08883709 -0.02932207-0.12898633]...[-0.00229368  0.045834    0.00811818 ... -0.11751424 -0.067181660.04085271][-0.08509324 -0.27506304 -0.02425355 ... -0.24215901 -0.154818250.17167582][-0.05180666  0.06384835 -0.05997407 ... -0.09398533 -0.05159672-0.03988626]]]===== torch model predicting =====
tensor([[    0, 42891,     6,   232,   328,     2,     2,   713,    16,  1738,102,   328,     2]])
tensor([[[-0.0525,  0.0818, -0.0170,  ..., -0.0546, -0.0569, -0.0099],[-0.0765, -0.0568, -0.1400,  ..., -0.2612, -0.0455,  0.2975],[-0.0142,  0.1184,  0.0530,  ..., -0.0844,  0.0199,  0.1340],...,[-0.0019,  0.1263, -0.0787,  ..., -0.3986, -0.0626,  0.1870],[ 0.0127, -0.2116,  0.0696,  ..., -0.1622, -0.1265,  0.0986],[-0.0473,  0.0748, -0.0419,  ..., -0.0892, -0.0595, -0.0281]]],grad_fn=<TransposeBackward0>)

可以看到,两者在tokenize时的token_ids是一致的。

英语文本分类

  接着我们需要看下转化为的tensorflow版本的Roberta模型在英语文本分类数据集上的效果了。
  这里我们使用的是GLUE数据集中的SST-2SST-2(The Stanford Sentiment Treebank,斯坦福情感树库),单句子分类任务,包含电影评论中的句子和它们情感的人类注释。这项任务是给定句子的情感,类别分为两类正面情感(positive,样本标签对应为1)和负面情感(negative,样本标签对应为0),并且只用句子级别的标签。也就是,本任务也是一个二分类任务,针对句子级别,分为正面和负面情感。关于该数据集的具体介绍可参考网址:https://nlp.stanford.edu/sentiment/index.html。
  SST-2数据集中训练集样本数量为67349,验证集样本数量为872,测试集样本数量为1820,数据存储格式为tsv,读取数据的代码如下:(utils/load_data.py)

def read_model_data(file_path):data = []with open(file_path, 'r', encoding='utf-8') as f:lines = [_.strip() for _ in f.readlines()]for i, line in enumerate(lines):if i:items = line.split('\t')label = [0, 1] if int(items[1]) else [1, 0]data.append([label, items[0]])return data

  在tokenizer部分,我们采用GTP2Tokenizer,该部分代码如下(utils/roberta_tokenizer.py):

# roberta tokenizer function for text pair
def tokenizer_encode(tokenizer, text, max_seq_length):sep = [tokenizer.sep_token]cls = [tokenizer.cls_token]# 1. 先用'bpe_tokenize'将文本转换成bpe tokenstokens1 = cls + tokenizer.bpe_tokenize(text) + sep# 2. 最后转换成idtoken_ids = tokenizer.convert_tokens_to_ids(tokens1)segment_ids = [0] * len(token_ids)pad_length = max_seq_length - len(token_ids)if pad_length >= 0:token_ids += [0] * pad_lengthsegment_ids += [0] * pad_lengthelse:token_ids = token_ids[:max_seq_length]segment_ids = segment_ids[:max_seq_length]return token_ids, segment_ids

  创建模型如下(model_train.py):

# 构建模型
def create_cls_model():# Roberta modelroberta_model = build_bert_model(CONFIG_FILE_PATH, CHECKPOINT_FILE_PATH, roberta=True)  # 建立模型,加载权重for layer in roberta_model.layers:layer.trainable = Truecls_layer = Lambda(lambda x: x[:, 0])(roberta_model.output)    # 取出[CLS]对应的向量用来做分类p = Dense(2, activation='softmax')(cls_layer)     # 多分类model = Model(roberta_model.input, p)model.compile(loss='categorical_crossentropy',optimizer=Adam(1e-5),   # 用足够小的学习率metrics=['accuracy'])return model

模型参数如下:

# 模型参数配置
EPOCH = 10              # 训练轮次
BATCH_SIZE = 64         # 批次数量
MAX_SEQ_LENGTH = 80     # 最大长度

模型训练完后,在验证数据集上的准确率(accuracy)为0.9415,F1值为0.9415,取得了不错效果。

模型预测

  我们对新样本进行模型预测(model_predict.py),预测结果如下:

Awesome movie for everyone to watch. Animation was flawless.
label: 1, prob: 0.9999607

I almost balled my eyes out 5 times. Almost. Beautiful movie, very inspiring.
label: 1, prob: 0.9999519

Not even worth it. It’s a movie that’s too stupid for adults, and too crappy for everyone. Skip if you’re not 13, or even if you are.
label: 0, prob: 0.9999864

总结

  本文介绍了如何将原始torch版本的英文Roberta模型转化为tensorflow版本模型,并且Keras中使用tensorflow版本模型实现英语文本分类。
  本项目代码已放至Github,网址为:https://github.com/percent4/keras_roberta_text_classificaiton。
  感谢阅读,如有任何问题,欢迎大家交流~

参考网址

  1. fairseq: https://github.com/pytorch/fairseq
  2. GLUE tasks: https://gluebenchmark.com/tasks
  3. SST-2: https://nlp.stanford.edu/sentiment/index.html
  4. keras_roberta: https://github.com/midori1/keras_roberta
  5. Roberta paper: https://arxiv.org/pdf/1907.11692.pdf

这篇关于NLP(五十四)在Keras中使用英文Roberta模型实现文本分类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/373851

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本