thucnews专题

NLP系列 1. IMDB和THUCNews数据集数据集的探索

文章目录探索IMDB数据集和THUCNews数据集IMDB的探索THUCNews数据集的探索数据集来源数据集介绍探索IMDB数据集和THUCNews数据集 IMDB的探索由keras直接加载数据集,再将数据集中已经预处理过的代表词的数字转换回字词代码见 https://github.com/sherpahu/NLP_practice/blob/master/Task

THUCNews学习（CNN模型）

THUCNews 文章目录 THUCNews0、概述1、项目目标2、数据说明3、数据预处理3.1 获得词汇表3.2 句子向量化 4、建模过程4.1 embedding4.2 CNN4.2.1 卷积层4.2.2 池化层4.2.3 全连接层 5、结论5.1 结构显示5.2 结果显示 6、自我改进6.1 改进的内容6.2 思维导图6.3 结果展示6.4 后续调整 0、概述 THU

【中文文本分类实战系列】朴素贝叶斯实现THUCNews文本分类

THUCNews数据集数据集背景 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。清华大学自然语言处理实验室在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据集介绍转自：THUCTC