神经网络第三篇:输出层及softmax函数

2024-06-24 11:18

本文主要是介绍神经网络第三篇:输出层及softmax函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 在上一篇专题中,我们以三层神经网络的实现为例,介绍了如何利用Python和Numpy编程实现神经网络的计算。其中,中间(隐藏)层和输出层的激活函数分别选择了 sigmoid函数和恒等函数。此刻,我们心中不难发问:为什么要花一个专题来介绍输出层及其激活函数?它和中间层又有什么区别?softmax函数何来何去?下面我们带着这些疑问进入本专题的知识点:

1 输出层概述

2 回归问题及恒等函数

3 分类问题及softmax函数

4 Python编程softmax函数

1 输出层概述

神经网络/深度学习本质上都属于机器学习问题,而我们知道,机器学习一般分为监督学习非监督学习,生活中,我们应用更多的是监督学习(简单来说需要事先通过已知的输入输出数据进行学习,然后对未知的输入数据进行预测),以神经网络为例,学习的结果,即输出层的输出值y。该输出值既可以是一个连续的无范围约束的数值(回归问题),也可以是一个离散的范围被限制(一般在0至1之间)的数值(分类问题)。所以针对不同的问题,我们对输出层的设计,即激活函数的设计应不同。一般情况下,在神经网络中,回归问题选择恒等函数作为激活函数,分类问题选择softmax函数作为激活函数


小提示:

监督学习又分为回归问题分类问题。如果想对机器学习有一个透彻而全面的理解,给大家推荐一本OReilly出版的书籍《Introduction to MachineLearning with Python》,不知道现在是否发布了中文版,但网上已经有了很多读者自己上传的中文笔记,大家也可在我的博客中获取本人上传的阅读笔记。


2 回归问题及恒等函数

回归”一词对于理工科的人来说并不陌生,直观地讲,回归问题是根据输入来预测一个连续的数值的问题。比如根据一个人的日常饮食量来预测这个人的体重,这就是一个回归问题。为让大家更加明白,我们以数学表达式为例:

                                                       

上面这个回归问题,以神经网络模型为例,首先需要向神经网络提供已知的正确的输入(食饭量和食肉量)和输出(体重),通过这些信息,模型学到了变量的权重。然后就可以对输入进行输出预测。

不难理解,我们并不需要对这样的信号加权和进行其他处理,也就是说我们直接输出食饭量和食肉量的加权和即可。因此,在输出层的设计中,输入信号应该原封不动地被输出,即激活函数h()应该选择恒等函数(用σ()表示),如下图:

                                                                       

由于激活函数选择的是恒等函数,因此输出值没有在我们的预定范围内。

3 分类问题及softmax函数

3.1 分类问题

顾名思义,“分类”就是判断一个数据集所描述的类别,比如判断图像中的人是男还是女,这里的数据集是图像数据,类别有男和女两个类别。既然是判断,那么它应该是一个概率性的问题,打个比方,一个画了浓妆艳抹的男扮女装,仅看照片,我们为了防止说话过于绝对,会以这样的方式表达:我觉得这照片有可能是男的;我觉得这照片很有可能是男的。以概率描述:我觉得这张照片是男性的可能性为60%(0.6);我觉得这张照片是男性的可能性是90%(0.9)

因此,我们对分类问题的判断结果,实际上是来自于概率。我们用上图来分析分类问题:图中的输出信号有三个y1、y2、y3,我们可以理解为这是一个三类别分类,对于输入的数据集,神经网络通过计算后得到值y1、y2、y3。这三个值的大小都应该在01之间,且它们的和应该为1。对于一个输入来说,神经网络预测的结果就是y1、y2、y3中最大值所对应的类别。比如y1、y2、y3的值分别为0.2、0.7、0.1,那么神经网络对这个输入的预测结果就是类别“乙”。

                                                                

3.2 softmax函数

通过上面的分析,回归问题我们只需将输出层的输入信号原封不动地输出即可,而分类问题我们需要考虑两个问题:

(1)每个输出信号值在0至1之间。

(2)所有输出信号的和为1。

基于以上要求,分类问题中,输出层的激活函数常用softmax函数:

                                                             

exp(x)表示ex的指数函数,ak是输出层中第k个输入信号,exp(ak)表示ak的指数函数。分母表示输出层共有n个输出信号(神经元),并计算所有输出层中的输入信号的指数和。yk是第k个神经元的输出。

仔细分析,该函数实际上等同于一个求占比的公式,读者可验证,信号加权和经softmax函数处理后完全满足上面两点要求。可以说,softmax函数很普通,只需完成指数运算求和运算除法运算

4 Python编程softmax函数

 我们已经知道了y1、y2、y3都会有一个0至1之间的数值。而最后的分类结果则取决于这三个值中最大值所对应的类别。借助numpy的广播功能就能轻松实现这样的操作。在这之前,我们需要考虑一个数值过大(溢出)的问题:softmax需要计算指数和,比如当ak中的某个值为1000时,其指数将是无穷大,由于计算机处理数值位数有限,因此有可能无法进行指数或求和运算。

为了解决这个潜在问题,我们对softmax函数作一下处理:

                              

公式表明在进行softmax的指数运算时,加上某个常数不会改变运算的结果。为了防止结果值溢出,一般会使用输入信号中的最大值的负数为这个常数,Python编程代码如下:

import numpy as np
def softmax(a):c=np.max(a) #求数组中的最大值exp=np.exp(a-c)  #指数运算sum_exp=np.sum(exp) #指数求和y=exp/sum_exp        #softmax函数值return y
"""测试"""
a=np.array([0.4,5,3])
y=softmax(a)
print(y)  #输出[0.00877593 0.87306727 0.11815681]
print(y.sum())  #输出1

程序是不是很简单?是的,在上一专题讲过的三层神经网络实现的代码中只需将恒等函数equal_function()替换为softmax()函数即可。softmax函数的输出是0到1,且输出值的总和为1,因此把softmax函数的输出概率解释为“概率”。一般而言,神经网络只把输出值最大的神经元所对应的类别作为识别结果。比如测试代码中计算得到y的输出最大值为y[1]=0.87,因此对于这个输入数据而言,预测的分类为“乙类”,也可以说有87%的概率认为预测结果为“乙类”。

总结一下,这个专题介绍了输出层及其激活函数、回归问题、分类问题、恒等函数和softmax函数。在介绍这些知识点的过程中,我们始终以预测结果为背景展开的,因此阅读完这篇文章,读者应该对机器学习或者神经网络的预测的流程有一定了解。

下一专题,我们将以手写数字识别为例,对前面的知识作整体的终结。 欢迎关注“Python生态智联”,学知识,享生活!

这篇关于神经网络第三篇:输出层及softmax函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089997

相关文章

【操作系统】信号Signal超详解|捕捉函数

🔥博客主页: 我要成为C++领域大神🎥系列专栏:【C++核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 如何触发信号 信号是Linux下的经典技术,一般操作系统利用信号杀死违规进程,典型进程干预手段,信号除了杀死进程外也可以挂起进程 kill -l 查看系统支持的信号

java中查看函数运行时间和cpu运行时间

android开发调查性能问题中有一个现象,函数的运行时间远低于cpu执行时间,因为函数运行期间线程可能包含等待操作。native层可以查看实际的cpu执行时间和函数执行时间。在java中如何实现? 借助AI得到了答案 import java.lang.management.ManagementFactory;import java.lang.management.Threa

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

SQL Server中,isnull()函数以及null的用法

SQL Serve中的isnull()函数:          isnull(value1,value2)         1、value1与value2的数据类型必须一致。         2、如果value1的值不为null,结果返回value1。         3、如果value1为null,结果返回vaule2的值。vaule2是你设定的值。        如

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

tf.split()函数解析

API原型(TensorFlow 1.8.0): tf.split(     value,     num_or_size_splits,     axis=0,     num=None,     name='split' ) 这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。  value传入的就是需要切割的张量。  这个函数有两种切割的方式: 以三个维度的张量为例,比如说一

神经网络第四篇:推理处理之手写数字识别

到目前为止,我们已经介绍完了神经网络的基本结构,现在用一个图像识别示例对前面的知识作整体的总结。本专题知识点如下: MNIST数据集图像数据转图像神经网络的推理处理批处理  MNIST数据集          mnist数据图像 MNIST数据集由0到9的数字图像构成。像素取值在0到255之间。每个图像数据都相应地标有“7”、“2”、“1”等数字标签。MNIST数据集中,

神经网络第一篇:激活函数是连接感知机和神经网络的桥梁

前面发布的文章介绍了感知机,了解了感知机可以通过叠加层表示复杂的函数。遗憾的是,设定合适的、能符合预期的输入与输出的权重,是由人工进行的。从本章开始,将进入神经网络的学习,首先介绍激活函数,因为它是连接感知机和神经网络的桥梁。如果读者认知阅读了本专题知识,相信你必有收获。 感知机数学表达式的简化 前面我们介绍了用感知机接收两个输入信号的数学表示如下:

多层感知机不等于神经网络?

在前一章节(https://blog.csdn.net/u012132349/article/details/86166324),我们介绍了感知机可以实现与门、或门、非门。只需给定合适的参数(w1, w2, b)并利用Python就可以简单实现对输入的任意(x1,x2),输出0或1。     今天我们将介绍感知机的局限性(严格说是单层感知机的局限性)。这里我们想用感知机实现异或门,所谓异

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文实际路径如下: 如果在本文路径中没有此目录,请尝试在C盘中搜索 python,搜索到相关python目录后,点击Python 3.9进入目录,