首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
thucnews专题
NLP系列 1. IMDB和THUCNews数据集数据集的探索
文章目录 探索IMDB数据集和THUCNews数据集IMDB的探索THUCNews数据集的探索数据集来源数据集介绍 探索IMDB数据集和THUCNews数据集 IMDB的探索 由keras直接加载数据集,再将数据集中已经预处理过的代表词的数字转换回字词 代码见 https://github.com/sherpahu/NLP_practice/blob/master/Task
阅读更多...
THUCNews学习(CNN模型)
THUCNews 文章目录 THUCNews0、概述1、项目目标2、数据说明3、数据预处理3.1 获得词汇表3.2 句子向量化 4、建模过程4.1 embedding4.2 CNN4.2.1 卷积层4.2.2 池化层4.2.3 全连接层 5、结论5.1 结构显示5.2 结果显示 6、自我改进6.1 改进的内容6.2 思维导图6.3 结果展示6.4 后续调整 0、概述 THU
阅读更多...
【中文文本分类实战系列】朴素贝叶斯实现THUCNews文本分类
THUCNews数据集 数据集背景 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。清华大学自然语言处理实验室在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据集介绍转自:THUCTC
阅读更多...