本文主要是介绍【NLP03-新闻主题分类任务】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
新闻主题分类任务
背景
以一段新闻报道中的文本描述内容为输入,使用模型帮助我们判断它最优可能属于哪一种类型的新闻,这是典型的文本分类问题,这里假定每种类型是互斥的,即文本描述有且只有一种类型
新闻主题分类数据
#通过torchtext获取数据
#导入相关torch工具包
import torch
import torchtext
# from torchtext.datasets import text_classification
#from torchtext.datasets import text_classification
import os
torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))#定义数据下载路径,当前路径的data文件夹
load_data_path ='D:/data'
#如果路径不存在,则创建这个路径
if not os.path.isdir(load_data_path):os.mkdir(load_data_path)#选取torchtext中的文本分类数据集'AG_NEWS'即新闻主题分类数据,保存再指定目录瞎
#并将数据映射后的训练和验证数据加载到内存中
#train_dataset,test_dataset = text_classification.DATASETS['AG_NEWS'](root=load_data_path)
train_dataset, test_dataset = torchtext.datasets.AG_NEWS(root='./data/ag_news_csv/', split=('train', 'test'))
整个案例的实现可分为以下五个步骤
- 第一步: 构建带有Embedding层的文本分类模型.
- 第二步: 对数据进行batch处理.
- 第三步: 构建训练与验证函数.
- 第四步: 进行模型训练和验证.
- 第五步: 查看embedding层嵌入的词向量.
小结
这篇关于【NLP03-新闻主题分类任务】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!