DL基础补全计划(二)---Softmax回归及示例(Pytorch,交叉熵损失)

2024-06-16 06:58

本文主要是介绍DL基础补全计划(二)---Softmax回归及示例(Pytorch,交叉熵损失),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PS:要转载请注明出处,本人版权所有。

PS: 这个只是基于《我自己》的理解,

如果和你的原则及想法相冲突,请谅解,勿喷。

环境说明
  • Windows 10
  • VSCode
  • Python 3.8.10
  • Pytorch 1.8.1
  • Cuda 10.2

前言


  在《DL基础补全计划(一)—线性回归及示例(Pytorch,平方损失)》(https://blog.csdn.net/u011728480/article/details/118463588 )一文中我们对深度学习中的非常基础的知识进行了简单介绍,按照常见深度学习中的基本流程设计了一个简单的线性模型。同时,基于基本的语法,展示了数据收集,数据小批量随机获取,网络forward, loss设计,基于loss的bp,随机小批量梯度下降,模型训练,模型预测等基本的流程。 记录这篇文章的原因也很简单,为了将自己从学校里面带出来的知识和深度学习中的基础知识关联起来,不要出现大的断层和空洞。

  在上文我们提到,我们已经能够设计一类模型能够求解特定函数的数值,但是在实际应用场景中,我们还有一些问题主要还是关注他们的分类。比如我们有一堆数据,怎么把他们分为N类。这里就要介绍深度学习中一类常见的模型,softmax回归模型。本文的主要目的就是基于FashionMNIST数据集(60000 * 28 * 28 训练集,10000 * 28 * 28 测试集),从基础的语法开始设计一个softmax分类模型,并介绍一些softmax相关的重点,在本文之后,其实我们就可以做一些深度学习的简单分类任务了。





Softmax介绍及实例


  我们可以知道,Softmax这个函数其实就是对N个类别进行打分,输出N个类别的概率,那么它的实际底层工作原理到底是什么呢?

  假如我们定义输出类别为N,输入特征为X, 输出类别分数为Y,参数为W,偏置为b,那么我们可以设计一个函数为: Y = W X + b Y=WX+b Y=WX+b,W.shape是(N, len(X)), X.shape是(len(X), 1), b.shape 是(N, len(X)),Y.shape是(N , 1),通过这样的一个线性运算后,我们就可以将len(X)个输入变换为N个输出,其实这个时候的N个输出就是我们不同类别的分数,理论上来说,我们就可以用这个当做每个类别的分数或者说概率。由于这里的Y是实数范围,有正有负,有大有小,存在数据不稳定性,而且我们需要把输出的类别当做概率使用,这里如果存在负数的话,不满足概率的一些定义。因此我们在经过一个线性变换后,再通过softmax运算,才能够将这些分数转换为相应的概率。

  Y.shape是(N , 1),Softmax定义为: S o f t m a x ( Y i ) = e x p ( Y i ) / ∑ j = 0 N − 1 Y j Softmax(Yi)=exp(Yi)/\sum\limits_{j=0}^{N-1}Yj Softmax(Yi)=exp(Yi)/j=0N1Yj ,因此我们可以通过Softmax得到每个类别的分数。 Y ′ = S o f t m a x ( Y ) Y'=Softmax(Y) Y=Softmax(Y),通过这样的运算后,就把Y归一化到0~1,而且满足概率的一些定义和保持了和Y同样的性质。

  下面我们基于FashionMNIST数据集(此数据集有10个类别,60000个训练集,10000个测试集,图片为单通道28*28),设计一个简单的分类模型。下面是python需要导入的依赖

from numpy.core.numeric import cross
import torch
from torch.utils.data import Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader
import numpy as np


获取并处理FashionMNIST数据集

  通过Pytorch的设计好的api直接获取数据集,并得到解析后的数据

def LoadFashionMNISTByTorchApi():# 60000*28*28training_data = datasets.FashionMNIST(root="data",train=True,download=True,transform=ToTensor())# 10000*28*28test_data = datasets.FashionMNIST(root="data",train=False,download=True,transform=ToTensor())labels_map = {0: "T-Shirt",1: "Trouser",2: "Pullover",3: "Dress",4: "Coat",5: "Sandal",6: "Shirt",7: "Sneaker",8: "Bag",9: "Ankle Boot",}figure = plt.figure(figsize=(8, 8))cols, rows = 3, 3for i in range(1, cols * rows + 1):sample_idx = torch.randint(len(training_data), size=(1,)).item()img, label = training_data[sample_idx]figure.add_subplot(rows, cols, i)plt.title(labels_map[label])plt.axis("off")plt.imshow(img.squeeze(), cmap="gray")plt.show()return training_data, test_data
rep_img

  通过面的代码可以知道,datasets.FashionMNIST()返回的是集合,集合里面存的是每个图的数据以及其标签。这里其实Pytorch帮我们做了解析工作,实际FashionMNIST的二进制存储格式如下,我们也可以自己写代码按照此规则解析数据集,这里就不关注这个问题了。

'''
Image:
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000803(2051) magic number
0004     32 bit integer  60000            number of images
0008     32 bit integer  28               number of rows
0012     32 bit integer  28               number of columns
0016     unsigned byte   ??               pixel
0017     unsigned byte   ??               pixel
........
xxxx     unsigned byte   ??               pixel
''''''
Label:
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000801(2049) magic number (MSB first)
0004     32 bit integer  60000            number of items
0008     unsigned byte   ??               label
0009     unsigned byte   ??               label
........
xxxx     unsigned byte   ??               label
The labels values are 0 to 9.
'''

  还记得我们前文的随机小批量怎么实现的吗?首先随机打乱数据集中的每个数据(图片和标签为一个数据)的顺序,然后根据batch_size参数构造一个可迭代的对象返回出来,最后训练的时候我们通过for xx in data_iter 来访问这一批的数据。这里我们也不需要自己来写这个了,直接调用Pytorch的函数来生成这样的一个data_iter,我们应该把更多注意力放到其他地方去。代码如下:

training_data, test_data = LoadFashionMNISTByTorchApi()
batch_size = 200# 返回训练集和测试集的可迭代对象
train_dataloader = DataLoader(training_data, batch_size, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size, shuffle=True)


设计网络

  我们的网络由两个部分构成,一个是从28*28到10的一个映射函数,一个是softmax函数。我们定义一个 Y = W X + b , Y ′ = S o f t m a x ( Y ) Y=WX+b, Y'=Softmax(Y) Y=WX+b,Y=Softmax(Y),因此我们可以看到,我们所需要学习的参数有W和b。

  根据前文介绍,我们可以知道Y’/Y.shape是(10, 1), X.shape是(784, 1), W.shape是(10, 784), b.shape(10, 1)

def softmax(out):# example:# out = (p1, p2, p3)# set Sum=p1+p2+p3# softmax(out) = (p1/Sum, p2/Sum, p3/Sum)exp_out = torch.exp(out)partition = exp_out.sum(dim=1, keepdim=True)return exp_out/partitiondef my_net(w, b, X):# print(X.shape)# print(w.shape)# print(b.shape)liear_out = torch.matmul(X, w) + b# print(liear_out.shape)return softmax(liear_out)


设计Loss函数及优化函数

  在前文的线性回归中,我们使用了平方误差来作为Loss函数,在分类这一问题里面,我们需要引入交叉熵来作为Loss函数。交叉熵作为信息论中的概念,我们简单的通过几个前置知识来引入:

  • 信息论研究的是一个随机事件携带的信息量,基本思想是事件发生概率越大,所携带的信息量越小。因此这里可以引入一个自信息定义: I ( x ) = − log ⁡ 2 ( P ( x ) ) I(x)=-\log_{2}(P(x)) I(x)=log2(P(x))。通过这个定义我们可以得到同样的趋势,一个事件发生的概率越小,携带的信息量越大。

  • 熵(Entropy),自信息是对单个随机事件的信息量大小描述,我们需要定义来描述整个随机分布的信息量大小的描述。假设随机分布是离散的,熵的定义为: H ( X ) = − ∑ i = 0 n − 1 P ( X i ) log ⁡ 2 ( P ( X i ) ) H(X)=-\sum\limits_{i=0}^{n-1}P(Xi)\log_{2}(P(Xi)) H(X)=i=0n1P(Xi)log2(P(Xi))

  • KL差异(Kullback-Leibler (KL) divergence),主要就是用来描述两个分布的差异。因为在有些时候,一个概率分布很复杂,我们可以用一个简单的概率分布来替代,但是我们需要知道这两个分布的差异。定义原概率分布为P(X),近似概率分布为Q(X),假如X是离散随机变量,KL差异定义为: D K L ( P ( X ) ∣ ∣ Q ( X ) ) = ∑ i = 0 n − 1 P ( X i ) log ⁡ 2 ( P ( X i ) / Q ( X i ) ) = ∑ i = 0 n − 1 P ( X i ) [ log ⁡ 2 ( P ( X i ) ) − log ⁡ 2 ( Q ( X i ) ) ] D_{KL}(P(X)||Q(X))=\sum\limits_{i=0}^{n-1}P(Xi)\log_{2}(P(Xi)/Q(Xi))=\sum\limits_{i=0}^{n-1}P(Xi)[\log_{2}(P(Xi)) - \log_{2}(Q(Xi))] DKL(P(X)Q(X))=i=0n1P(Xi)log2(P(Xi)/Q(Xi))=i=0n1P(Xi)[log2(P(Xi))log2(Q(Xi))]

  • 交叉熵(cross-entropy),交叉熵定义为: H ( P , Q ) = − ∑ i = 0 n − 1 P ( X i ) log ⁡ 2 ( Q ( X i ) ) H(P,Q)=-\sum\limits_{i=0}^{n-1}P(Xi)\log_{2}(Q(Xi)) H(P,Q)=i=0n1P(Xi)log2(Q(Xi)),我们可以看到 H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) H(P,Q)=H(P)+D_{KL}(P||Q) H(P,Q)=H(P)+DKL(PQ)

  • 在上文中,我们一步一步引出了交叉熵,这个时候,我们来看为什么在深度学习中可以引入交叉熵作为Loss函数,对于特定的一组Feature,我们可以通过标签得到这组feature代表什么,相当于其概率为1,因此在原概率分布上面, P ( X i ) = 1 , H ( X i ) = 0 P(Xi)=1, H(Xi)=0 P(Xi)=1,H(Xi)=0,我们可以看到这个时候交叉熵和KL差异是相等的,那么交叉熵其实就是描述我们训练时得到的概率分布和原分布的差异。因此,在分类问题中我们得到的是当前的每个分类的概率,那么我们分别求每个分类当前概率分布相对于原分布的KL差异,那么我们就知道我们的训练参数和真实参数的差异。我们求交叉熵的最小值,也就代表我们参数越接近真实值。

# 信息论,熵,kl熵(相对),交叉熵
def cross_entropy(y_train, y_label):# l = -y*log(y')# print(y_train.shape)# print(y_label.shape)# print(y_train)# print(y_label)# print(y_train[0][:].sum())# call pickmy_loss = -torch.log(y_train[range(len(y_train)), y_label])# nll_loss = torch.nn.NLLLoss()# th_loss = nll_loss(torch.log(y_train), y_label)# print(my_loss.sum()/len(y_label))# print(th_loss)return my_loss


设计准确率统计函数以及评估准确率函数

  在前一小节,我们已经设计了损失函数,我们在训练的过程中,除了要关注损失函数的值外,还需要关注我们模型的准确率。

  模型的准确率代码如下:

def accuracy(y_train, y_label): #@save"""计算预测正确的数量。"""# y_train = n*num_classif len(y_train.shape) > 1 and y_train.shape[1] > 1:# argmax get the max-element-indexy_train = y_train.argmax(axis=1)# cmp = n*1 , eg: [0 0 0 1 1 1 0 0 0]# print(y_train.dtype)# print(y_label.dtype)cmp = y_train == y_labelreturn float(cmp.sum()/len(y_label))

  从上面的代码可以知道,我们的网络输出是当前feature在每个类别上的概率,因此我们求出网络输出中,概率最大的索引,和真实label进行对比,相等就代表预测成功一个,反之。我们对最终数据求和后除以batch_size,就可以得到在batch_size个特征中,我们的预测正确的个数占比是多少。

  我们还需要在指定的数据集上评估我们的准确率,其代码如下(就是分批调用获得准确率后求平均):

def evaluate_accuracy(net, w, b, data_iter): #@save"""计算在指定数据集上模型的精度。"""test_acc_sum = 0.0times = 1for img, label in data_iter:test_acc_sum += accuracy(net(w, b, img.reshape(-1, w.shape[0])), label)times += 1return test_acc_sum/times


设计预测函数

  预测函数就是在特定数据上面,通过我们训练的网络,求出类别,并与真实label进行对比,其代码如下:

def predict(net, w, b, test_iter, n=6): #@save"""预测标签(定义⻅第3章)。"""for X, y in test_iter:breaklabels_map = {0: "T-Shirt",1: "Trouser",2: "Pullover",3: "Dress",4: "Coat",5: "Sandal",6: "Shirt",7: "Sneaker",8: "Bag",9: "Ankle Boot",}trues = [labels_map[i] for i in y.numpy()]preds = [labels_map[i] for i in net(w, b, X.reshape(-1, w.shape[0])).argmax(axis=1).numpy()]for i in np.arange(n):print(f'pre-idx {i} \n true_label/pred_label: {trues[i]}/{preds[i]}')


训练模型

  训练模型的话,其实就是将上面的代码缝合起来。代码如下:

if __name__ == '__main__':training_data, test_data = LoadFashionMNISTByTorchApi()batch_size = 200train_dataloader = DataLoader(training_data, batch_size, shuffle=True)test_dataloader = DataLoader(test_data, batch_size, shuffle=True)# train_features, train_labels = next(iter(train_dataloader))# print(f"Feature batch shape: {train_features.size()}")# print(f"Labels batch shape: {train_labels.size()}")# img = train_features[1].squeeze()# label = train_labels[1]# plt.imshow(img, cmap="gray")# plt.show()# print(f"Label: {label}")# 28*28num_inputs = 784# num of classnum_outputs = 10# (748, 10)w = torch.from_numpy(np.random.normal(0, 0.01, (num_inputs, num_outputs)))w = w.to(torch.float32)w.requires_grad = Trueprint('w = ', w.shape)# (10, 1)b = torch.from_numpy(np.zeros(num_outputs))b = b.to(torch.float32)b.requires_grad = Trueprint('b = ', b.shape)num_epochs = 10lr = 0.1net = my_netloss = cross_entropy# if torch.cuda.is_available():#     w = w.to('cuda')#     b = b.to('cuda')for epoch in range(num_epochs):times = 1train_acc_sum = 0.0train_loss_sum = 0.0for img, label in train_dataloader:# if torch.cuda.is_available():#     img = img.to('cuda')#     label = label.to('cuda')            # print(img.shape, label.shape)l = loss(net(w, b, img.reshape(-1, w.shape[0])), label)# print(l.shape)# print(l)# clean grad of w,bw.grad = Noneb.grad = None # bpl.backward(torch.ones_like(l))# update paramsgd([w, b], lr, batch_size)train_acc_sum += accuracy(net(w, b, img.reshape(-1, w.shape[0])), label)train_loss_sum += (l.sum()/batch_size)times += 1# breaktest_acc = evaluate_accuracy(net, w, b, test_dataloader)print('epoch = ', epoch)print('train_loss = ', train_loss_sum.detach().numpy()/times)print('train_acc = ', train_acc_sum/times)print('test_acc = ', test_acc)# break# predictpredict(net, w, b, test_dataloader, n = 10)

  从如上的代码可知,首先从数据集中得到小批量数据迭代器,然后随机生成初始化参数,最后在小批量数据上推理,求loss之,bp,更新参数,记录loss和acc,最终训练次数完了后,去预测。

  训练截图如下:

rep_img

  预测截图如下:

rep_img
  从预测的截图来看,预测成功的准确率大于1/10。说明我们的模型的有效的。此图中看起来准确率较高,这是偶然现象,但是真实不应该这样的,因为在测试集上,准确率只有81%左右。



后记


  此外,我们这里仅仅是按照数学定义来做计算,在计算机中,我们现在设计的一些函数可能不合理,比如softmax会产生溢出,我们会用到LogExpSum技巧,把softmax和交叉熵一起计算,通过冥函数和对数函数的一些性质,我们可以化简后抵消一些exp的计算,保证数值的稳定性,我们只需要知道有这么一个事情即可。但是这一切都不需要我们来弄,我们只需要调用别人设计的好的函数即可,比如pythorch中的torch.nn.CrossEntropyLoss()。如果真的有需要,可以根据LogExpSum的定义来直接编写就行,在这里,本文就不关注这个。

  从线性回归到softmax回归,我们算是基本了解清楚了深度学习的一些基本的概念,这为我们去看和改一些比较好的、公开的模型打下了基础。

参考文献

  • https://github.com/d2l-ai/d2l-zh/releases (V1.0.0)
  • https://github.com/d2l-ai/d2l-zh/releases (V2.0.0 alpha1)
  • https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/information-theory.html



打赏、订阅、收藏、丢香蕉、硬币,请关注公众号(攻城狮的搬砖之路)
qrc_img

PS: 请尊重原创,不喜勿喷。

PS: 要转载请注明出处,本人版权所有。

PS: 有问题请留言,看到后我会第一时间回复。

这篇关于DL基础补全计划(二)---Softmax回归及示例(Pytorch,交叉熵损失)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1065758

相关文章

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要

Python实现MQTT通信的示例代码

《Python实现MQTT通信的示例代码》本文主要介绍了Python实现MQTT通信的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 安装paho-mqtt库‌2. 搭建MQTT代理服务器(Broker)‌‌3. pytho

Java中Arrays类和Collections类常用方法示例详解

《Java中Arrays类和Collections类常用方法示例详解》本文总结了Java中Arrays和Collections类的常用方法,涵盖数组填充、排序、搜索、复制、列表转换等操作,帮助开发者高... 目录Arrays.fill()相关用法Arrays.toString()Arrays.sort()A

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

MySQL 主从复制部署及验证(示例详解)

《MySQL主从复制部署及验证(示例详解)》本文介绍MySQL主从复制部署步骤及学校管理数据库创建脚本,包含表结构设计、示例数据插入和查询语句,用于验证主从同步功能,感兴趣的朋友一起看看吧... 目录mysql 主从复制部署指南部署步骤1.环境准备2. 主服务器配置3. 创建复制用户4. 获取主服务器状态5

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

PostgreSQL中rank()窗口函数实用指南与示例

《PostgreSQL中rank()窗口函数实用指南与示例》在数据分析和数据库管理中,经常需要对数据进行排名操作,PostgreSQL提供了强大的窗口函数rank(),可以方便地对结果集中的行进行排名... 目录一、rank()函数简介二、基础示例:部门内员工薪资排名示例数据排名查询三、高级应用示例1. 每

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

SpringBoot线程池配置使用示例详解

《SpringBoot线程池配置使用示例详解》SpringBoot集成@Async注解,支持线程池参数配置(核心数、队列容量、拒绝策略等)及生命周期管理,结合监控与任务装饰器,提升异步处理效率与系统... 目录一、核心特性二、添加依赖三、参数详解四、配置线程池五、应用实践代码说明拒绝策略(Rejected