(路透社数据集)新闻分类:多分类问题实战

2023-12-19 09:10

本文主要是介绍(路透社数据集)新闻分类:多分类问题实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 前言
  • 一、电影评论分类实战
    • 1-1、数据集介绍&数据集导入&分割数据集
    • 1-2、字典的键值对颠倒&数字评论解码
    • 1-3、将整数序列转化为张量(训练数据和标签)
    • 1-4、搭建神经网络&选择损失函数和优化器&划分出验证集
    • 1-5、开始训练&绘制训练损失和验证损失&绘制训练准确率和验证准确率
    • 1-6、在测试集上验证准确率
  • 二、调参总结
  • 三、碎碎念(绘制3D爱心代码)
  • 总结


前言

对于路透社数据集的评论分类实战

一、电影评论分类实战

1-1、数据集介绍&数据集导入&分割数据集

from keras.datasets import reuters# 加载路透社数据集,包含许多短新闻及其对应的主题,它包含46个不同的主题。
# 加载数据:训练数据、训练标签;测试数据、测试标签。
# 将数据限定为前10000个最常出现的单词。
(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)# 查看训练数据
train_data[0:2]

输出:可以看到单词序列已经被转化为了整数序列,否则的话我们还需要手动搭建词典并且将其转化为整数序列。
在这里插入图片描述

1-2、字典的键值对颠倒&数字评论解码

# 将单词映射为整数索引的字典。
word_index = reuters.get_word_index()# 键值颠倒,将整数索引映射为单词。
# 颠倒之后,前边是整数索引,后边是对应的单词。
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])# 将评论解码,注意,索引减去了3,是因为012是特殊含义的字符。
decoded_review = ' '.join(# 根据整数索引,查找对应的单词,然后使用空格来进行连接,如果没有找到相关的索引,那就用问号代替[reverse_word_index.get(i - 3, '?') for i in train_data[0]])# 看一下颠倒后的词典
print(reverse_word_index)
# 查看一下解码后的评论
print(decoded_review)

输出reverse_word_index
在这里插入图片描述
输出decoded_review:

在这里插入图片描述

1-3、将整数序列转化为张量(训练数据和标签)

import numpy as np
def vectorize_sequences(sequences,dimension=10000):"""将整数序列转化为二进制矩阵的函数"""results = np.zeros((len(sequences), dimension))for i, sequences in enumerate(sequences):# 相应列上的元素置为1,其他位置上的元素都为0。results[i, sequences] = 1return results# 这里只是预处理的一种方式,即单词序列编码为二进制向量,当然也可以采用其他方式,
# 比如说直接填充列表,然后使其具有相同的长度,然后将其转化为张量,并且网络第一层使用能够处理这种整数张量的层,即Embedding层。
# 训练数据向量化,即将其转化为二进制矩阵
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
# 将每个标签表示为全零向量,只有标签索引对应的元素为1
from keras.utils.np_utils import to_categorical
# keras内置这种转化方法,原理的话,与上边将整数序列转化为二进制矩阵的函数没有差别,唯一的不同是传入的维度是46,而不是10000
one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)# 查看一下训练集
print(one_hot_test_labels[0])
# 查看x_train
print(x_train)

输出one_hot_test_labels[0]
在这里插入图片描述
输出x_train
在这里插入图片描述

1-4、搭建神经网络&选择损失函数和优化器&划分出验证集

units = 64
from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(units, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(units, activation='relu'))
# 因为这里是46个类别,所以最后一层激活函数使用softmax,即对于每个输入样本,网络都会输出一个46维的向量,这个向量的每个元素代表不同的输出类别
model.add(layers.Dense(46, activation='softmax'))# one-hot编码标签对应categorical_crossentropy(分类交叉熵损失函数)
# 标签直接转化为张量对应sparse_categorical_crossentropy(稀疏交叉熵损失)
model.compile(optimizer='rmsprop',# 这类问题的损失一般都会使用分类交叉熵损失函数。loss = 'categorical_crossentropy',metrics = ['accuracy'])
x_val = x_train[:1000]
partial_x_train = x_train[1000:]y_val = one_hot_train_labels[:1000]
partial_y_train = one_hot_train_labels[1000:]

1-5、开始训练&绘制训练损失和验证损失&绘制训练准确率和验证准确率

epochs = 10history = model.fit(partial_x_train,partial_y_train,epochs=epochs,batch_size=512,validation_data=(x_val, y_val))

训练过程
在这里插入图片描述

绘制训练损失和验证损失

import plotly.express as px
import plotly.graph_objects as gohistory_dic = history.history
loss_val = history_dic['loss']
val_loss_values = history_dic['val_loss']
# epochs = range(1, len(loss_val)+1)
# np.linspace:作为序列生成器, numpy.linspace()函数用于在线性空间中以均匀步长生成数字序列
# 左闭右闭,所以是从整数120.
# 参数:起始、结束、生成的点
epochs = np.linspace(1, epochs, epochs)
fig = go.Figure()# Add traces
fig.add_trace(go.Scatter(x=epochs, y=loss_val,mode='markers',name='Training loss'))
fig.add_trace(go.Scatter(x=epochs, y=val_loss_values,mode='lines+markers',name='Validation loss'))
fig.show()

输出
在这里插入图片描述

绘制训练准确率和验证准确率

acc = history_dic['accuracy']
val_acc = history_dic['val_accuracy']
fig = go.Figure()# Add traces
fig.add_trace(go.Scatter(x=epochs, y=acc,mode='markers',name='Training acc'))
fig.add_trace(go.Scatter(x=epochs, y=val_acc,mode='lines+markers',name='Validation acc'))
fig.show()

输出
在这里插入图片描述

1-6、在测试集上验证准确率

# 两层、64个隐藏单元
# 训练轮次:20 损失:1.22 准确率:0.78
# 训练轮次:10 损失:0.96 准确率:0.79
# 训练轮次:9 损失:1.00 准确率:0.77
# 训练轮次:6 损失:1.01 准确率:0.77# 两层、128个隐藏单元 
# 训练轮次:20 损失:1.31 准确率:0.77
# 训练轮次:4 损失:0.97 准确率:0.78# 注意:准确率会浮动,一般在0.2的范围内浮动。model.evaluate(x_test, one_hot_test_labels)

在这里插入图片描述

二、调参总结

调参总结
1、训练轮次:先选择较大的轮次,一般设置为20,观察数据在验证集上的表现,训练是为了拟合一般数据,所以当模型在验证集上准确率下降时,那就不要再继续训练了。
2、隐藏单元设置:二分类选择较小的单元数,如果是多分类的话,可以试着设置较大的单元数,比如说64、128等。
3、隐藏层数设置:同隐藏单元的设置规则,这里设置的层数较少,如果数据复杂,可以多加几层来观察数据的整体表现。
4、标签直接设置为one-hot编码时,则对应设置损失为categorical_crossentropy(分类交叉熵损失函数),若标签直接转化为张量,则对应设置损失为sparse_categorical_crossentropy(稀疏交叉熵损失)。


三、碎碎念(绘制3D爱心代码)

# 刚打开csdn看到一个绘制3D爱心的代码,于是我直接白嫖过来。
import numpy as np
import wxgl.glplot as glta = np.linspace(0, 2*np.pi, 500)
b = np.linspace(0.5*np.pi, -0.5*np.pi, 500)
lons, lats = np.meshgrid(a, b)
w = np.sqrt(np.abs(a - np.pi)) * 2
x = 2 * np.cos(lats) * np.sin(lons) * w
y = -2 * np.cos(lats) * np.cos(lons) * w
z = 2 * np.sin(lats)glt.mesh(x, y, z, color='crimson') # crimson - 绯红
glt.show()

输出
在这里插入图片描述

总结

七夕不快乐,呱呱呱。

这篇关于(路透社数据集)新闻分类:多分类问题实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/511650

相关文章

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr