基于bert模型的文本分类研究:“Predict the Happiness”挑战

2023-12-02 11:08

本文主要是介绍基于bert模型的文本分类研究:“Predict the Happiness”挑战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 前言

在2018年10月,Google发布了新的语言表示模型BERT-“Bidirectional Encoder Representations from Transformers”。根据他们的论文所言,在文本分类、实体识别、问答系统等广泛的自然语言处理任务上取得了最新的成果。

2017年12月,参加了Hackerreath的一个挑战“Predict the Happiness”。在这个挑战中,我为这个文本分类问题(Predict the Happiness)构建了一个多层全连接神经网络通过提交的测试数据,我可以得到87.8%的准确率,排名是66。

在互联网上围绕BERT进行了大量的讨论之后,我选择将BERT应用到同一个Challenge中,以证明调整BERT模型是否能将我带到这个挑战的更好排名。

2. Bert安装与预训练模型

  • 将BERT Github项目Copy到自己的机器上:

git clone https://github.com/google-research/bert.git
  • 直接下载预训练的Bert模型

Google提供了四个预训练模型:

  • BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters
  • BERT-Large, Uncased: 24-layer, 1024-hidden, 16-heads, 340M parameters
  • BERT-Base, Cased: 12-layer, 768-hidden, 12-heads , 110M parameters
  • BERT-Large, Cased: 24-layer, 1024-hidden, 16-heads, 340M parameters

本文下载了BERT-Base, Cased第一个进行文本分类实验。这里,我们需要以符合bert模型的格式准备文本数据。Google规定了数据的格式:

对于train.tsv or dev.tsv:

  • 每行需要一个ID
  • 每行需要一个整数值作为标签 ( 0,1,2,3 etc)
  • 一列完全相同的字母
  • 要分类的文本示例

对于test.tsv:

  • 每行需要一个ID
  • 想要测试的文本示例

下面的python代码片段将读取hackerreath训练数据(train.csv),并根据bert模型机型数据准备:

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from pandas import DataFramele = LabelEncoder()df = pd.read_csv("data/train.csv")# Creating train and dev dataframes according to BERT
df_bert = pd.DataFrame({'user_id':df['User_ID'],'label':le.fit_transform(df['Is_Response']),'alpha':['a']*df.shape[0],'text':df['Description'].replace(r'\n',' ',regex=True)})df_bert_train, df_bert_dev = train_test_split(df_bert, test_size=0.01)# Creating test dataframe according to BERT
df_test = pd.read_csv("data/test.csv")
df_bert_test = pd.DataFrame({'User_ID':df_test['User_ID'],'text':df_test['Description'].replace(r'\n',' ',regex=True)})# Saving dataframes to .tsv format as required by BERT
df_bert_train.to_csv('data/train.tsv', sep='\t', index=False, header=False)
df_bert_dev.to_csv('data/dev.tsv', sep='\t', index=False, header=False)
df_bert_test.to_csv('data/test.tsv', sep='\t', index=False, header=True)

原始训练数据格式如下:

符合Bert的训练数据格式如下:

3. 使用BERT预训练模型进行模型训练

进行训练前的检查(太重要了):

  • 所有的.tsv文件都在“data”的文件夹中
  • 创建文件夹“bert_output”,保存经过微调的模型,并以“test_results.tsv”的名称生成测试结果
  • 检查是否下载了“cased_l-12_h-768_a-12”中的预先训练的bert模型到当前目录

  • 确保命令中的路径是相对路径(以“/”开头)

在终端上运行以下命令:

python run_classifier.py 
--task_name=cola 
--do_train=true 
--do_eval=true 
--do_predict=true 
--data_dir=./data/ 
--vocab_file=./cased_L-12_H-768_A-12/vocab.txt 
--bert_config_file=./cased_L-12_H-768_A-12/bert_config.json 
--init_checkpoint=./cased_L-12_H-768_A-12/bert_model.ckpt 
--max_seq_length=400 
--train_batch_size=8 
--learning_rate=2e-5 
--num_train_epochs=3.0 
--output_dir=./bert_output/ 
--do_lower_case=False

在输出目录中生成“test_results.tsv”,作为对测试数据集的预测的结果它包含所有类在列中的预测概率值。

4. 提交结果

下面的python代码将结果从BERT模型转换为.csv格式,以便提交给hackerreath Challenge:

df_results = pd.read_csv("bert_output/test_results.tsv",sep="\t",header=None)
df_results_csv = pd.DataFrame({'User_ID':df_test['User_ID'],'Is_Response':df_results.idxmax(axis=1)})# Replacing index with string as required for submission
df_results_csv['Is_Response'].replace(0, 'happy',inplace=True)
df_results_csv['Is_Response'].replace(1, 'not_happy',inplace=True)# writing into .csv
df_results_csv.to_csv('data/result.csv',sep=",",index=None)

下图显示了将概率值转换为提交结果的过程:

BERT的威力就是可以将排名从66升到第4!!!

5. 总结

  • Bert的训练环节:

该模型使用两个新的无监督预测任务进行预训练:

BERT使用了一种简单的方法:MASK输入中15%的单词,通过一个深度Bidirectional Transformer encoder运行整个序列,然后只预测MASK的单词例如:

Input: the man went to the [MASK1] . he bought a [MASK2] of milk.
Labels: [MASK1] = store; [MASK2] = gallon

为了学习句子之间的关系,BERT还训练了一个可以从任何单语语料库生成的简单任务:给定两个句子a和b,预测b是a之后的实际下一个句子,还是只是语料库中的一个随机句子。

Sentence A: the man went to the store.
Sentence B: he bought a gallon of milk.
Label: IsNextSentenceSentence A: the man went to the store.
Sentence B: penguins are flightless.
Label: NotNextSentence
  • 根据模型体系结构的规模,有两个预先训练的模型,即BASE和LARGE。
BERT BASE:Number of Layers =12No. of hidden nodes = 768No. of Attention heads =12Total Parameters = 110MBERT LARGE:Number of Layers =24,No. of hidden nodes = 1024No. of Attention heads =16Total Parameters = 340M

 

这篇关于基于bert模型的文本分类研究:“Predict the Happiness”挑战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/445105

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。