6个你应该用用看的用于文本分类的最新开源预训练模型

2024-06-21 08:58

本文主要是介绍6个你应该用用看的用于文本分类的最新开源预训练模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:PURVA HUILGOL

编译:ronghuaiyang

导读

文本分类是NLP的基础任务之一,今天给大家介绍6个最新的预训练模型,做NLP的同学一定要用用看。

介绍

我们正站在语言和机器的交汇处。我对这个话题很感兴趣。机器能写得和莎士比亚一样好吗?如果一台机器可以提高我自己的写作技能呢?机器人能听懂讽刺的话吗?

我相信你以前问过这些问题。自然语言处理(NLP)的另一目的是为了回答这些问题,我必须说,在这个领域已经有了突破性的研究成果来拉近人和机器之间的差距了。

NLP的核心思想之一是文本分类。如果机器可以区分名词和动词,或者如果它可以通过评论检测客户是否对产品满意,我们可以使用这种理解能力用在其他高级NLP等任务上,比如上下文理解,或者生成一个全新的故事!

这就是我们看到很多关于文本分类的研究的主要原因。是的,迁移学习的出现无疑帮助加速了研究。现在,我们可以使用在大型数据集上构建的预训练的模型,并对其进行调优,以实现不同数据集上的其他任务。

迁移学习和预训练的模型有两个主要优势:

  1. 它降低了训练新的深度学习模型的成本

  2. 这些数据集是被行业接受的标准,因此预训练的模型在质量方面已经得到了检验

你可以看到为什么预训练的模特越来越受欢迎。我们看到的谷歌BERT和OpenAI的GPT-2在这方面就做的很好。在本文中,我将介绍6种最先进的文本分类预训练模型。

我们的文本分类预训练模型包括:

  • XLNet

  • ERNIE

  • Text-to-Text Transfer Transformer (T5)

  • Binary Partitioning Transfomer (BPT)

  • Neural Attentive Bag-of-Entities (NABoE)

  • Rethinking Complex Neural Network Architectures

预训练模型 #1: XLNet

说到最先进的预训练模型,就不能不提XLNet!

谷歌的最新模型,XLNet在NLP的主要任务上比如文本分类,情感分析,问答,以及自然语言推理上都达到最先进的水平。不仅仅在文本分类上击败了BERT,还包括高级的NLP任务。

XLNet的核心思想是:

  1. 语言理解的广义自回归预训练

  2. Transformer-XL

如果这听起来很复杂,不要担心!我会用简单的语言来解释。

自回归建模使用问题中缺失单词之前或之后的上下文单词来预测下一个单词。但是,我们不能同时处理向前和向后两个方向。

尽管BERT的自动编码器确实解决了这方面的问题,但它也有其他的缺点,比如假设mask掉的单词之间没有相关性。为了解决这个问题,XLNet提出了一种称为排列语言建模的技术。这种技术使用排列来同时从正向和反向产生信息。

众所周知,Transformer结构是一个改变游戏规则的工具。XLNet使用Transformer XL。正如我们所知,Transformer替代了递归神经网络(RNN),允许不相邻的tokens同时进行处理。这提高了对文本中长距离关系的理解。Transformer-XL基本上是BERT中使用的Transformer的增强版,增加了两个组件:

  1. 特定片段的递归,给出两个序列之间的上下文

  2. 一种相对位置的嵌入,它包含两个tokens之间的相似性信息

如前所述,XLNet几乎在所有任务(包括文本分类)上都优于BERT,并且在其中18个任务上实现了SOTA的性能!下面是对文本分类任务的总结,以及XLNet如何在这些不同的数据集上执行,以及它在这些数据集上取得的高排名:

![](Top 6 Open Source Pretrained Models for Text Classification you should use.assets/XLNet_Perf.png)

  • 论文链接: XLNet: Generalized Autoregressive Pretraining for Language Understanding

  • Github链接: https://github.com/zihangdai/xlnet

预训练模型 #2: ERNIE

尽管ERNIE 1.0(发布于2019年3月)一直是文本分类的流行模式,但在2019年下半年,ERNIE 2.0成为了热门话题。ERNIE由科技巨头百度开发,在英语GLUE基准测试中,它的表现超过了谷歌XLNet和BERT。

ERNIE的意思是Enhanced Representation through kNowledge IntEgration,ERNIE 2.0是ERNIE 1.0的升级版。ERNIE 1.0在它自己的方式上是开创性的 —— 它是第一个利用知识图谱的模型之一。这种集成进一步增强了高级任务的训练模型,如关系分类和命名实体识别(NER)。

与之前的版本一样,ERNIE 2.0带来了另一项创新,即递增的多任务学习。基本上,这意味着模型已经定义了7个明确的任务,并且

  • 可以同时生成多个任务的输出。例如,完成句子“I like going to New…”—>“I like going to New York”,并将其归类为有积极情绪的句子。合并任务的损失也相应计算。

  • 递增地使用前一个任务的输出到下一个任务。例如,将Task 1的输出作为Task 1、Task 2的训练,为此,Task 1和Task 2用于训练Task 1、Task 2和Task 3……等等。

我真的很喜欢这个过程,非常的直观,因为它遵循了人类理解文本的方式。我们的大脑不仅认为“I like going to New York”是一个积极情绪的句子,是不是?它同时理解了名词“New York”和“I”,理解了“like”这个动词,并推断出New York是一个地方。

ERNIE在关系提取任务中获得了88.32的SOTA的F1-Score

  • 论文链接:https://arxiv.org/pdf/1905.07129v3.pdf

  • Github链接:https://github.com/thunlp/ERNIE

预训练模型 #3: Text-to-Text Transfer Transformer (T5)

说实话,与其他模型相比,研究这个模型最有趣。谷歌新的Text-to-Text Transfer Transformer (T5)模型使用Transfer learning来完成各种NLP任务。

最有趣的部分是它将每个问题转换为文本输入—文本输出模型。因此,即使对于分类任务,输入也将是文本,输出也将是单词而不是标签。这可以归结为所有任务上的一个模型。不仅如此,一个任务的输出可以用作下一个任务的输入。

语料库使用普通抓取的增强版本。基本上就是从web上抓取文本。这篇论文强调了清理数据的重要性,并清楚地说明了这是如何做到的。虽然抓取的数据每个月生成20TB的数据,但是大部分数据并不适合NLP任务。

即使只保留文本内容(包含标记、代码内容等的页面已被删除),语料库的大小仍然高达750GB,比大多数数据集大得多。

注意:这也已经在TensorFlow上发布了:https://www.tensorflow.org/datasets/catalog/c4

要执行的任务被编码为输入的前缀。正如你在上面的图表中所看到的,不管是分类还是回归任务,T5模型仍然会生成新的文本来获得输出。

T5在超过20个已建立的NLP任务上实现了SOTA —— 这是很少见的,看看指标,它和人类的输出非常接近。

T5模型跟随了最近的趋势,对未标注的数据进行了训练,然后对标注文本进行微调。可以理解的是,这个模型是巨大的,但是可以看到对它进行进一步的研究,缩小这个模型是非常有趣的,可以让它得到更广泛的使用。

  • 论文链接:https://arxiv.org/pdf/1910.10683.pdf

  • Github链接:https://github.com/googl-research/text-to-text-transfer-transformer

预训练模型 #4: Binary-Partitioning Transformer (BPT)

正如我们到目前为止所看到的,Transformer architecture在NLP研究中非常流行。BP Transformer 再次使用Transformer,或者更确切地说,使用它的一个增强版本来进行文本分类,机器翻译等等。

然而,使用Transformer仍然是一个昂贵的过程,因为它使用了自注意力机制。自注意只是指我们对句子本身进行注意力操作,而不是两个不同的句子。自注意力有助于识别一句话中单词之间的关系。正是这种自注意力的机制导致了使用Transformer的成本。

Binary-Partitioning Transformer (BPT)将Transformer 视为一个图神经网络,旨在提高自注意力机制的效率。本质上,这个图中的每个节点表示一个输入token。

BP Transformer的工作原理如下:

第一步:递归地把句子分成两部分,直到达到某个停止条件。这称为二元分区。例如,“I like going to New York”这句话有以下几个部分:

  • I like going; to New York

  • I like; going; to New; York

  • I; like; going; to; New; York

注意:一个包含n个单词的句子会有2*n - 1个分区,最后,你会得到一个完整的二叉树。

第二步:每个分区现在都是图神经网络中的一个节点。有两种类型的边:

  • 连接父节点及其子节点的边

  • 连接叶节点与其他节点的边

第三步:对图中相邻节点的每个节点进行自注意力:

BPT达到了:

  • 在中英机器翻译上达到了SOTA的成绩(BLEU评分:19.84)

  • IMDb数据集情绪分析的准确率为92.12(结合GloVE embedding)

我很欣赏这个模型,因为它让我重新审视了图的概念,让我敢于去研究图神经网络。我承认我来晚了,但在不久的将来,我一定会在图神经网络上进行更多的探索!

  • 论文链接:https://arxiv.org/pdf/1911.04070v1.pdf

  • Github链接:https://github.com/yzh119/BPT

预训练模型 #5: Neural Attentive Bag-of-Entities Model for Text Classification (NABoE)

神经网络一直是最受欢迎的NLP任务模型,它们的表现优于传统的模型。此外,在构建语料库知识库的同时,用单词代替实体,也改善了模型de 学习。

这意味着我们不是从语料库中的单词构建词汇表,而是使用实体链接构建大量实体。虽然已有研究将语料库表示为模型,但NABoE模型更进一步:

  1. 使用神经网络来检测实体

  2. 使用注意力机制来计算被检测实体的权重(这决定了这些实体与文档的相关性)

实体模型的神经注意包使用Wikipedia语料库来检测与单词相关的实体。例如,单词“Apple”可以指水果、公司和其他可能的实体。检索所有这些实体后,使用基于softmax的注意力函数计算每个实体的权重。这提供了只与特定文档相关的实体的一个更小的子集。

最后,通过向量嵌入和与词相关的实体的向量嵌入,给出了词的最终表示。

NABoE模型在文本分类任务中表现得特别好:

  • 论文链接: Neural Attentive Bag-of-Entities Model for Text Classification

  • Github链接: https://github.com/wikipedia2vec/wikipedia2vec/tree/master/examples/text_classification

预训练模型 #6: Rethinking Complex Neural Network Architectures for Document Classification

现在,在研究了这么多的高级的预训练模型之后,我们要反其道而行之,我们要讨论一个使用老的双向LSTM的模型来实现SOTA性能。但这正是我最后决定介绍它的原因。

我们常常因为几棵树木而错过森林。我们往往忘记,一个简单的调优的模型可能会获得与这些复杂的深度学习模型一样好的结果。本文的目的就是要说明这一点。

双向LSTM和正则化的组合能够在IMDb文档分类任务上实现SOTA的性能。

本文最有趣和值得注意的方面是:

  1. 它不使用注意力机制

  2. 这是第一篇结合LSTM +正则化方法进行文档分类的论文

这个最小的模型使用Adam优化器,temporal averaging和dropouts,得到了很高的分数。本文将这些结果与其他深度学习模型进行了实证比较,证明了该模型简单有效,结果不言自明:

这种模型可以被认为是一种新的行业方法,在这个行业中,构建可生产的模型并在你的度量标准上获得高分是很重要的。

  • 论文链接: Rethinking Complex Neural Network Architectures for Document Classification

  • Github链接: https://github.com/castorini/hedwig

结束语

在这里,我们讨论了最近在文本分类中达到SOTA的6个预训练模型。这些NLP模型表明,还有更多的模型有待开发,我期待着今年了解它们。

所有这些研究中一个非常好的地方是这些预训练好的模型的可用性和开源性。上述所有模型都有一个GitHub仓库,可以用于实现。另一个不能忽视的方面是,它们也可以在PyTorch上找到。PyTorch正在迅速取代TensorFlow作为构建你的深度学习模型的平台。

我鼓励你在各种数据集上尝试这些模型,并对它们进行试验,以了解它们是如何工作的。如果你心中已经有了一些和去年一样酷但没有引起注意的模型,请在下面的评论中提及它们!

—END—

英文原文:https://www.analyticsvidhya.com/blog/2020/03/6-pretrained-models-text-classification/

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于6个你应该用用看的用于文本分类的最新开源预训练模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080778

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Spring Boot 中整合 MyBatis-Plus详细步骤(最新推荐)

《SpringBoot中整合MyBatis-Plus详细步骤(最新推荐)》本文详细介绍了如何在SpringBoot项目中整合MyBatis-Plus,包括整合步骤、基本CRUD操作、分页查询、批... 目录一、整合步骤1. 创建 Spring Boot 项目2. 配置项目依赖3. 配置数据源4. 创建实体类

Java子线程无法获取Attributes的解决方法(最新推荐)

《Java子线程无法获取Attributes的解决方法(最新推荐)》在Java多线程编程中,子线程无法直接获取主线程设置的Attributes是一个常见问题,本文探讨了这一问题的原因,并提供了两种解决... 目录一、问题原因二、解决方案1. 直接传递数据2. 使用ThreadLocal(适用于线程独立数据)

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推