从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响

本文主要是介绍从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前使用深度学习时一直对各种激活函数和权重初始化策略信手拈用,然而不能只知其表不知其里。若想深入理解为何选择某种激活函数和权重初始化方法卓有成效还是得回归本源,本文就从反向传播的计算过程来按图索骥。

为了更好地演示深度学习中的前向传播和反向传播,有必要图文结合,先按下面这个计算图造些数据。


在这里插入图片描述


这是一个输入只有单个样本、包含两个特征,两个隐藏层、分别带有2个神经元,以及一个输出的三层全连接神经网络。

输入和权重

输入 I n p u t Input Input (每行表示一个样本,每列表示一个特征)

X = [ x 1 , x 2 ] = [ 1 , − 1 ] X=[x_1,x_2]=[1,-1] X=[x1,x2]=[1,1]

标签 y = [ 1 ] y=[1] y=[1]

权重 W W W (每列对应一个神经元,行数等于样本特征数)

W 1 = [ w 1 w 3 w 2 w 4 ] = [ 1 − 1 − 2 1 ] \begin{align} W_1 & = \begin{bmatrix} w_1 & w_3 \\ w_2 & w_4 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 1 & -1 \\ -2 & 1 \\ \end{bmatrix} \end{align} W1=[w1w2w3w4]=[1211]

W 2 = [ w 5 w 7 w 6 w 8 ] = [ 2 − 2 − 1 − 1 ] \begin{align} W_2 & = \begin{bmatrix} w_5 & w_7 \\ w_6 & w_8 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 2 & -2 \\ -1 & -1 \\ \end{bmatrix} \end{align} W2=[w5w6w7w8]=[2121]

W 3 = [ w 9 w 11 w 10 w 12 ] = [ 3 − 1 − 1 4 ] \begin{align} W_3 & = \begin{bmatrix} w_9 & w_{11} \\ w_{10} & w_{12} \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 3 & -1 \\ -1 & 4 \\ \end{bmatrix} \end{align} W3=[w9w10w11w12]=[3114]

偏置 b b b (长度等于神经元数量)

b 1 = [ b 11 , b 12 ] = [ 1 , 0 ] b_1=[b_{11},b_{12}]=[1,0] b1=[b11,b12]=[1,0]

b 2 = [ b 21 , b 22 ] = [ 0 , 0 ] b_2=[b_{21},b_{22}]=[0,0] b2=[b21,b22]=[0,0]

b 3 = [ − 2 ] b_3=[-2] b3=[2]

前向传播过程

前向传播就是从输入经隐藏层到输出层的计算过程。

从输入到第一个隐藏层的计算

z 1 = w 1 ⋅ x 1 + w 2 ⋅ x 2 + b 11 = 4 z_1=w_1 · x_1 + w_2 · x_2 + b_{11}=4 z1=w1x1+w2x2+b11=4

z 2 = w 3 ⋅ x 1 + w 4 ⋅ x 2 + b 12 = − 2 z_2=w_3 · x_1 + w_4 · x_2 + b_{12}=-2 z2=w3x1+w4x2+b12=2

a 11 = σ ( z 1 ) = 0.9820 a_{11}=\sigma(z_1)=0.9820 a11=σ(z1)=0.9820

a 12 = σ ( z 2 ) = 0.1192 a_{12}=\sigma(z_2)=0.1192 a12=σ(z2)=0.1192

其中, σ = s i g m o i d = 1 1 + e − x \sigma=sigmoid={1 \over{1+e^{-x}}} σ=sigmoid=1+ex1 ,其导数为 σ ′ = s i g m o i d ∗ ( 1 − s i g m o i d ) = 1 1 + e − x − 1 ( 1 + e − x ) 2 \sigma'=sigmoid * (1 - sigmoid)={1 \over{1+e^{-x}}}-{1 \over{(1+e^{-x}})^2} σ=sigmoid(1sigmoid)=1+ex1(1+ex)21

隐藏层 H 1 = [ a 11 , a 12 ] H_1=[a_{11},a_{12}] H1=[a11,a12] ,作为第二个隐藏层的输入。

从第一个隐藏层到第二个隐藏层的计算

z 3 = w 5 ⋅ a 11 + w 6 ⋅ a 12 + b 21 = 1.8448 z_3=w_5 · a_{11} + w_6 · a_{12} + b_{21}=1.8448 z3=w5a11+w6a12+b21=1.8448

z 4 = w 7 ⋅ a 11 + w 8 ⋅ a 12 + b 22 = − 2.0832 z_4=w_7 · a_{11} + w_8 · a_{12} + b_{22}=-2.0832 z4=w7a11+w8a12+b22=2.0832

a 21 = σ ( z 3 ) = 0.8635 a_{21}=\sigma(z_3)=0.8635 a21=σ(z3)=0.8635

a 22 = σ ( z 4 ) = 0.1107 a_{22}=\sigma(z_4)=0.1107 a22=σ(z4)=0.1107

隐藏层 H 2 = [ a 21 , a 22 ] H_2=[a_{21},a_{22}] H2=[a21,a22] ,作为输出层的输入。

从第二个隐藏层到输出层的计算

y ^ = w 9 ⋅ a 21 + w 10 ⋅ a 22 + b 3 = 0.4798 \hat{y}=w_9 · a_{21} + w_{10} · a_{22} + b_{3}=0.4798 y^=w9a21+w10a22+b3=0.4798

一个样本的损失: L = ( y ^ − y ) 2 = y ^ 2 + y 2 − 2 y ^ y = 0.2706 L=(\hat{y}-y)^2=\hat{y}^2+y^2-2\hat{y}y=0.2706 L=(y^y)2=y^2+y22y^y=0.2706

计算结果如下:


在这里插入图片描述


反向传播过程

以求 w 1 w_1 w1 的偏导数为例,其他可仿照之,利用链式法则计算梯度。
∂ L ∂ w 1 = ∂ z 1 ∂ w 1 ∂ L ∂ z 1 = x 1 ∂ L ∂ z 1 ( 1 ) \begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial L \over \partial z_1} \hspace{100cm} \\ &=x_1 {\partial L \over \partial z_1} \ \ \ \ \ (1) \end{align} w1L=w1z1z1L=x1z1L     (1)

∂ L ∂ w 1 = ∂ z 1 ∂ w 1 ∂ a 11 ∂ z 1 ∂ L ∂ a 11 = x 1 σ ′ ( z 1 ) ∂ L ∂ a 11 ( 2 ) \begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} {\partial L \over \partial a_{11}} \hspace{100cm} \\ &=x_1 \sigma'(z_1) {\partial L \over \partial a_{11}} \ \ \ \ \ (2) \end{align} w1L=w1z1z1a11a11L=x1σ(z1)a11L     (2)

∂ L ∂ w 1 = ∂ z 1 ∂ w 1 ∂ a 11 ∂ z 1 ( ∂ z 3 ∂ a 11 ∂ L ∂ z 3 + ∂ z 4 ∂ a 11 ∂ L ∂ z 4 ) = x 1 σ ′ ( z 1 ) [ w 5 ∂ L ∂ z 3 + w 7 ∂ L ∂ z 4 ] ( 3 ) \begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial L \over \partial z_{3}} + {\partial z_4 \over \partial a_{11}} {\partial L \over \partial z_{4}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}}] \ \ \ \ \ (3) \end{align} w1L=w1z1z1a11(a11z3z3L+a11z4z4L)=x1σ(z1)[w5z3L+w7z4L]     (3)

∂ L ∂ w 1 = ∂ z 1 ∂ w 1 ∂ a 11 ∂ z 1 ( ∂ z 3 ∂ a 11 ∂ a 21 ∂ z 3 ∂ L ∂ a 21 + ∂ z 4 ∂ a 11 ∂ a 22 ∂ z 4 ∂ L ∂ a 22 ) = x 1 σ ′ ( z 1 ) [ w 5 σ ′ ( z 3 ) ∂ L ∂ a 21 + w 7 σ ′ ( z 4 ) ∂ L ∂ a 22 ] ( 4 ) \begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial a_{21} \over \partial z_{3}} {\partial L \over \partial a_{21}} + {\partial z_4 \over \partial a_{11}} {\partial a_{22} \over \partial z_{4}} {\partial L \over \partial a_{22}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 \sigma'(z_3) {\partial L \over \partial a_{21}} + w_7 \sigma'(z_4) {\partial L \over \partial a_{22}}] \ \ \ \ \ (4) \end{align} w1L=w1z1z1a11(a11z3z3a21a21L+a11z4z4a22a22L)=x1σ(z1)[w5σ(z3)a21L+w7σ(z4)a22L]     (4)

∂ L ∂ w 1 = ∂ z 1 ∂ w 1 ∂ a 11 ∂ z 1 ( ∂ z 3 ∂ a 11 ∂ a 21 ∂ z 3 ∂ y ^ ∂ a 21 ∂ L ∂ y ^ + ∂ z 4 ∂ a 11 ∂ a 22 ∂ z 4 ∂ y ^ ∂ a 22 ∂ L ∂ y ^ ) = x 1 σ ′ ( z 1 ) [ w 5 σ ′ ( z 3 ) w 9 ∂ L ∂ y ^ + w 7 σ ′ ( z 4 ) w 10 ∂ L ∂ y ^ ] ( 5 ) \begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial a_{21} \over \partial z_{3}} {\partial \hat{y} \over \partial a_{21}} {\partial L \over \partial \hat{y}} + {\partial z_4 \over \partial a_{11}} {\partial a_{22} \over \partial z_{4}} {\partial \hat{y} \over \partial a_{22}} {\partial L \over \partial \hat{y}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}] \ \ \ \ \ (5) \end{align} w1L=w1z1z1a11(a11z3z3a21a21y^y^L+a11z4z4a22a22y^y^L)=x1σ(z1)[w5σ(z3)w9y^L+w7σ(z4)w10y^L]     (5)

∂ L ∂ w 1 = x 1 σ ′ ( z 1 ) [ w 5 σ ′ ( z 3 ) w 9 ∂ L ∂ y ^ + w 7 σ ′ ( z 4 ) w 10 ∂ L ∂ y ^ ] = 1 ∗ 0.0177 ∗ [ 2 ∗ 0.1179 ∗ 3 ∗ ( 2 y ^ − 2 y ) + ( − 2 ∗ 0.0985 ∗ − 1 ∗ ( 2 y ^ − 2 y ) ) ] = − 0.0166 ( 6 ) \begin{align} {\partial L \over \partial w_1} & = x_1 \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}] \hspace{100cm} \\ &=1*0.0177*[2*0.1179*3*(2 \hat{y}-2y) + (-2*0.0985*-1*(2 \hat{y}-2y))] \\ &=-0.0166 \ \ \ \ \ (6) \end{align} w1L=x1σ(z1)[w5σ(z3)w9y^L+w7σ(z4)w10y^L]=10.0177[20.11793(2y^2y)+(20.09851(2y^2y))]=0.0166     (6)

与pytorch计算结果相同。

import torch
from torch import nn#输入与权重
X=torch.tensor([[1.0,-1.0]])
y=torch.tensor([1.0])
W1=torch.tensor([[1.0,-1.0],[-2.0,1.0]],requires_grad=True)
b1=torch.tensor([1.0,0.0],requires_grad=True)
W2=torch.tensor([[2.0,-2.0],[-1.0,-1.0]],requires_grad=True)
b2=torch.tensor([0.0,0.0],requires_grad=True)
W3=torch.tensor([[3.0],[-1.0]],requires_grad=True)
b3=torch.tensor([-2.0],requires_grad=True)#隐藏层1
z1=torch.matmul(X,W1)+b1
a1=torch.sigmoid(z1) #隐藏层2
z2=torch.matmul(a1,W2)+b2
a2=torch.sigmoid(z2) #输出层
y_hat=torch.matmul(a2,W3)+b3#损失函数
loss=nn.MSELoss(reduction='none')#计算损失
L=loss(y_hat,y).sum()
L.backward()
print(W1.grad)

在这里插入图片描述


要想求 ∂ L ∂ w 1 {\partial L \over \partial w_1} w1L ,我们先看式 ( 1 ) (1) (1) ∂ z 1 ∂ w 1 {\partial z_1 \over \partial w_1} w1z1 是可以立刻得出的,因为它就是 w 1 w_1 w1 前面连接的输入的值。实际上对于任何权重,其偏导数 ∂ w {\partial w} w 表达式的第一项都是可以通过其连接的输入立刻获得(即利用前向传播过程中存储的每个神经元的中间结果),比如对于靠后的 w 9 w_9 w9 ,其输入为 a 21 a_{21} a21 ,展开得:

a 21 = σ [ w 5 ⋅ σ ( w 1 ⋅ x 1 + w 2 ⋅ x 2 + b 11 ) + w 6 ⋅ σ ( w 3 ⋅ x 1 + w 4 ⋅ x 2 + b 12 ) + b 21 ] a_{21}=\sigma[w_5 · \sigma(w_1 · x_1 + w_2 · x_2 + b_{11}) + w_6 · \sigma(w_3 · x_1 + w_4 · x_2 + b_{12}) + b_{21}] a21=σ[w5σ(w1x1+w2x2+b11)+w6σ(w3x1+w4x2+b12)+b21]

a 21 a_{21} a21 σ ( W 2 σ ( W 1 X + b 1 ) + b 2 ) ( 7 ) \sigma(W_2 \sigma(W_1X+b1)+b2) \ \ \ \ \ (7) σ(W2σ(W1X+b1)+b2)     (7) 结果其中之一。

可以看出,每一部分都会经激活函数,而对于 s i g m o i d sigmoid sigmoid 激活函数来说,第一项的计算可能会是无穷小,因此可能会引发梯度消失问题,而使用Relu则可以 减轻困扰以往神经网络的梯度消失问题。


在这里插入图片描述

sigmoid图像

在这里插入图片描述

Relu图像

继续回到对 ∂ L ∂ w 1 {\partial L \over \partial w_1} w1L 的讨论上。现在还要求 ∂ L ∂ z 1 {\partial L \over \partial z_1} z1L ,那么 ∂ L ∂ z 1 {\partial L \over \partial z_1} z1L 如何求解呢?这就是反向传播要解决的问题了。

我们再回看一下式 ( 2 ) − ( 5 ) (2)-(5) (2)(5) 中的 ∂ L ∂ z 1 {\partial L \over \partial z_1} z1L ,列示如下:

∂ L ∂ z 1 = σ ′ ( z 1 ) ∂ L ∂ a 11 {\partial L \over \partial z_1} = \sigma'(z_1) {\partial L \over \partial a_{11}} z1L=σ(z1)a11L

∂ L ∂ z 1 = σ ′ ( z 1 ) [ w 5 ∂ L ∂ z 3 + w 7 ∂ L ∂ z 4 ] {\partial L \over \partial z_1} = \sigma'(z_1) [w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}}] z1L=σ(z1)[w5z3L+w7z4L]

∂ L ∂ z 1 = σ ′ ( z 1 ) [ w 5 σ ′ ( z 3 ) ∂ L ∂ a 21 + w 7 σ ′ ( z 4 ) ∂ L ∂ a 22 ] {\partial L \over \partial z_1} = \sigma'(z_1) [w_5 \sigma'(z_3) {\partial L \over \partial a_{21}} + w_7 \sigma'(z_4) {\partial L \over \partial a_{22}}] z1L=σ(z1)[w5σ(z3)a21L+w7σ(z4)a22L]

∂ L ∂ z 1 = σ ′ ( z 1 ) [ w 5 σ ′ ( z 3 ) w 9 ∂ L ∂ y ^ + w 7 σ ′ ( z 4 ) w 10 ∂ L ∂ y ^ ] {\partial L \over \partial z_1} = \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}] z1L=σ(z1)[w5σ(z3)w9y^L+w7σ(z4)w10y^L]

可以看出,从前往后计算 ∂ L ∂ z 1 {\partial L \over \partial z_1} z1L 会不太容易,因为前面项总会依赖后面项的计算结果,所以得先一直往后计算。

但反过来就简单多了,我们可以从最后一项出发,对于最初的计算图,最后一项是输出值关于损失的导数 ∂ L ∂ y ^ {\partial L \over \partial \hat{y}} y^L ,这个可以由确定的损失函数求得。

有了 ∂ L ∂ y ^ {\partial L \over \partial \hat{y}} y^L ,可以通过 w 9 、 w 10 w_9、w_{10} w9w10 求得 ∂ L ∂ a 21 、 ∂ L ∂ a 22 {\partial L \over \partial a_{21}}、 {\partial L \over \partial a_{22}} a21La22L

有了 ∂ L ∂ a 21 、 ∂ L ∂ a 22 {\partial L \over \partial a_{21}}、 {\partial L \over \partial a_{22}} a21La22L ,可以通过 w 5 、 w 7 w_5、w_7 w5w7 求得 ∂ L ∂ a 11 {\partial L \over \partial a_{11}} a11L (别忘了中间还要乘以一个 $\sigma’(z) $ , z z z 只是一个常量,也可以从前向传播存储的中间结果获得) 。

再回味一下上面这个从后往前的计算过程,是不是跟前向传播很相似?这就是梯度的反向传播!与前向传播的图示比对如下:


在这里插入图片描述

反向传播

在这里插入图片描述

前向传播

其中:

∂ L ∂ a 21 = w 9 ∂ L ∂ y ^ ( 8 ) {\partial L \over \partial a_{21}}=w_9 {\partial L \over \partial \hat{y}} \ \ \ \ \ (8) a21L=w9y^L     (8)

∂ L ∂ a 22 = w 10 ∂ L ∂ y ^ ( 9 ) {\partial L \over \partial a_{22}}=w_{10} {\partial L \over \partial \hat{y}} \ \ \ \ \ (9) a22L=w10y^L     (9)

∂ L ∂ a 11 = w 5 ∂ L ∂ z 3 + w 7 ∂ L ∂ z 4 ( 10 ) {\partial L \over \partial a_{11}}=w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}} \ \ \ \ \ (10) a11L=w5z3L+w7z4L     (10)

∂ L ∂ z 3 = σ ′ ( z 3 ) ∂ L ∂ a 21 {\partial L \over \partial z_{3}}=\sigma'(z_3) {\partial L \over \partial a_{21}} z3L=σ(z3)a21L

∂ L ∂ z 4 = σ ′ ( z 4 ) ∂ L ∂ a 22 {\partial L \over \partial z_{4}}=\sigma'(z_4) {\partial L \over \partial a_{22}} z4L=σ(z4)a22L

∂ L ∂ z 1 = σ ′ ( z 1 ) ∂ L ∂ a 11 {\partial L \over \partial z_{1}}=\sigma'(z_1) {\partial L \over \partial a_{11}} z1L=σ(z1)a11L

这个计算过程和前向传播很类似(尤其是式 ( 10 ) (10) (10) ),所以称之为反向传播。

从式 ( 5 ) 、 ( 7 ) (5)、(7) (5)(7) 可以看出,每个权重的偏导数都会涉及到一连串 w w w 与激活函数导数的乘积以及权重与输入的乘积,试想,如果没有一个良好初始化的权重,这么多 w w w 相乘很可能会引起梯度爆炸或梯度消失等参数不稳定问题。

比如方差为1的正态随机矩阵和一个初始权重矩阵相乘,会引起梯度爆炸:

W = torch.normal(0, 1, size=(5,5)) 
print('初始权重矩阵 \n',W) 
for i in range(100):W = torch.matmul(W,torch.normal(0, 1, size=(5, 5)))print('100个矩阵相乘后 \n', W)

在这里插入图片描述


这篇关于从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047049

相关文章

C/C++的编译和链接过程

目录 从源文件生成可执行文件(书中第2章) 1.Preprocessing预处理——预处理器cpp 2.Compilation编译——编译器cll ps:vs中优化选项设置 3.Assembly汇编——汇编器as ps:vs中汇编输出文件设置 4.Linking链接——链接器ld 符号 模块,库 链接过程——链接器 链接过程 1.简单链接的例子 2.链接过程 3.地址和

idea lanyu方式激活

访问http://idea.lanyus.com/这个地址。根据提示将0.0.0.0 account.jetbrains.com添加到hosts文件中,hosts文件在C:\Windows\System32\drivers\etc目录下。点击获得注册码即可。

【操作系统】信号Signal超详解|捕捉函数

🔥博客主页: 我要成为C++领域大神🎥系列专栏:【C++核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 如何触发信号 信号是Linux下的经典技术,一般操作系统利用信号杀死违规进程,典型进程干预手段,信号除了杀死进程外也可以挂起进程 kill -l 查看系统支持的信号

(超详细)YOLOV7改进-Soft-NMS(支持多种IoU变种选择)

1.在until/general.py文件最后加上下面代码 2.在general.py里面找到这代码,修改这两个地方 3.之后直接运行即可

java中查看函数运行时间和cpu运行时间

android开发调查性能问题中有一个现象,函数的运行时间远低于cpu执行时间,因为函数运行期间线程可能包含等待操作。native层可以查看实际的cpu执行时间和函数执行时间。在java中如何实现? 借助AI得到了答案 import java.lang.management.ManagementFactory;import java.lang.management.Threa

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

chart 完成拓扑图单节点拖拽不影响其他节点位置

就是做这种的功能,箭头原本是可以动态重复移动的,但不知道哪里问题导致没箭头了,然后补了个edgeSymbol: ['','arrow'], 字段,才增加了箭头。 拖拽某个节点,只有关联到的线条会跟着变动其他的节点位置不变。 参考 https://gallery.echartsjs.com/editor.html?c=x8Fgri22P9 https://echarts.baidu.com/exa

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

SQL Server中,isnull()函数以及null的用法

SQL Serve中的isnull()函数:          isnull(value1,value2)         1、value1与value2的数据类型必须一致。         2、如果value1的值不为null,结果返回value1。         3、如果value1为null,结果返回vaule2的值。vaule2是你设定的值。        如

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python