【论文泛读25】用于极端多标签文本分类的驯服预处理变压器

本文主要是介绍【论文泛读25】用于极端多标签文本分类的驯服预处理变压器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

贴一下汇总贴:论文阅读记录

论文链接:《Taming Pretrained Transformers for Extreme Multi-label Text Classification》

一、摘要

我们考虑极端的多标签文本分类(XMC)问题:给定一个输入文本,从一个大的标签集合中返回最相关的标签。例如,输入文本可以是Amazon.com的产品描述,标签可以是产品类别。XMC是NLP社区中一个重要而又具有挑战性的问题。最近,深度预训练的变压器模型在许多自然语言处理任务上取得了最先进的性能,包括句子分类,尽管标签集很小。然而,由于大输出空间和标签稀疏问题,天真地将深度变换器模型应用于XMC问题会导致次优性能。在本文中,我们提出了X-Transformer,这是第一个针对XMC问题微调深度转换器模型的可扩展方法。所提出的方法在四个XMC基准数据集上实现了新的最先进的结果。

二、结论

在本文中,我们提出了X-Transformer,这是第一个用于微调Deep Transformer模型的可扩展框架,它在四个XMC基准数据集上改进了最先进的XMC方法。我们进一步将X-Transformer应用于现实应用程序product2query预测,显示出对竞争对手Parabel线性模型的显著改进。

三、XMC

极端多标签文本分类
Extreme Multi-label text Classification

给定一个输入文本实例,从一个巨大的标签集合中返回最相关的标签,其中标签的数量可能在数百万或更多。

XMC本质上是一个工业规模的文本分类问题,是机器学习和自然语言处理(NLP)领域最重要和最基本的课题之一。

  • 计算挑战
  • 标签稀疏导致输出空间过大

在这里插入图片描述
ELMo使用一个(双向LSTM)模型对大量未标记的文本数据进行预处理,以获得内容化的单词嵌入。

X-Transformer

提出了X-Transformer,这是一种克服上述问题的新方法,成功地针对XMC问题微调了深层Transformer模型。X-Transformer由语义标签索引组件、深度神经匹配组件和集成排序组件组成。首先,语义标签索引(SLI)通过标签聚类将原始的棘手的XMC问题分解成一组输出空间小得多的可行子问题,这缓解了标签稀疏性问题,如图1右侧所示。第二,深度神经匹配组件为每个SLI诱发的XMC子问题微调变换器模型,导致从输入文本到标签簇集合的更好映射。最后,集成排序组件在来自转换器的实例到集群分配和神经嵌入上被有条件地训练,并且被用来汇集从各种SLI引起的子问题中得到的分数,用于进一步的性能改进。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

代码地址:Github代码

相关工作

  • Sparse Linear Models
  • Deep Learning Approaches
  • BERT
  • Word2vec
  • Keyword recommendation system

这篇关于【论文泛读25】用于极端多标签文本分类的驯服预处理变压器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/286211

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

EMLOG程序单页友链和标签增加美化

单页友联效果图: 标签页面效果图: 源码介绍 EMLOG单页友情链接和TAG标签,友链单页文件代码main{width: 58%;是设置宽度 自己把设置成与您的网站宽度一样,如果自适应就填写100%,TAG文件不用修改 安装方法:把Links.php和tag.php上传到网站根目录即可,访问 域名/Links.php、域名/tag.php 所有模板适用,代码就不粘贴出来,已经打

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

动手学深度学习【数据操作+数据预处理】

import osos.makedirs(os.path.join('.', 'data'), exist_ok=True)data_file = os.path.join('.', 'data', 'house_tiny.csv')with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n') # 列名f.write('NA

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已