[deeplearning-003] 一般形式的反向传导算法BP最简推导-1

本文主要是介绍[deeplearning-003] 一般形式的反向传导算法BP最简推导-1，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.神经网络结构
设神经网络的层数是 $p$ ， $p\ge 3$ 。
神经网络有三种层：一个输入层，若干个隐层，一个输出层，分别简称 $L^1$ ， $L^2$ ，…， $L^p$ 。
设每层神经元数量分别是 $d^1$ ， $d^2$ ，…， $d^p$ 。每个神经元的应激函数是 $f(x)$ 。

2.分析第一层和第二层并推导全局变量
设一个样本是 $\mathbf x\in R^{d^1\times 1}$ ，它从 $L^1$ 层输入。

设 $L^1$ 和 $L^2$ 之间的连接权重矩阵是 $W^1$ ，那么:

W 1 \in R d 2 \times d 1

$\mathbf W^1\in R^{d^2\times d^1}$

$W^1$ 的第一行就是:

W 1 [1 :] = [W 1 1, 1, W 1 1, 2, . . ., W 1 1, d 2]

$\mathbf W^1[1:]=[\mathbf W^1_{1,1}, \mathbf W^{1}_{1,2}, ..., \mathbf W^{1}_{1,d^2} ]$
其中，

W11,i $\mathbf W^1_{1,i}$ ，就是

L1 $L^1$ 层的第

i $i$ 个神经元和第

L2 $L^2$ 层的第1个神经元的权重系数。

那么， $L^2$ 的第一个神经元的激活值，就是:

a 21 = f (W 1 [1 :] x + b 11)

$a^2_1=f(\mathbf W^1[1:]\mathbf x+\mathbf b^1_1)$

令 $z^2_1=\mathbf W^1[1:]\mathbf x+\mathbf b^1_1$ ，上式又可以写为：

a 21 = f (z 21)

$a^{2}_1=f(z^{2}_1)$

更进一步地， $L^2$ 的每个神经元激活值可以写为:

a 2 i = f (W 1 [i :]) x + b 1 i), i = 1, . . ., d 2

$a^2_i = f(W^1[i:])\mathbf x+\mathbf b^1_i), i=1,...,d^2$
更进一步地，

Lj+1 $L^{j+1}$ 层的每个神经元激活值可以写为：

a j + 1 i = f (W j [i :]) x + b j i), i = 1, . . ., d j + 1

$a^{j+1}_i = f(W^{j}[i:])\mathbf x+\mathbf b^{j}_i), i=1,...,d^{j+1}$

为简便起见，令

z j + 1 i = W j [i :]) x + b j i

$z^{j+1}_i=W^j[i:])\mathbf x+\mathbf b^j_i$
则：

a j + 1 i = f (z j + 1 i), i = 1, . . ., d j

$a^{j+1}_i = f(z^{j+1}_i), i=1,...,d^{j}$
对于输出层

L1 $L^1$ ，

j=1 $j=1$ ，

a1i $a^1_i$ 可以视为样本

x $\mathbf x$ 的第

i $i$ 分量。

3.反向传播

3.1 代价函数
设训练集是 $\{(\mathbf x^1,\mathbf y^1), (\mathbf x^2,\mathbf y^2),..., (\mathbf x^m,\mathbf y^m)\}$ ，其中， $\mathbf y^k \in R^{d^p\times 1}$ ，这显而易见，输出层的神经元是 $d^p$ 个。

研究一个样本 $(\mathbf x^k,\mathbf y^k)$ ，对它而言，代价函数是：

J (W 1, W 2, b 1, b 2; x k, y k) = 1 2 ∥ h W 1, W 2, b 1, b 2 (x k) - y k ∥ 2 = 1 2 \sum q = 1 d p (y k q - f (z p, k q)) 2

$J(\mathbf W^1, \mathbf W^2, \mathbf b^1, \mathbf b^2;\mathbf x^k,\mathbf y^k) =\frac{1}{2}\parallel h_{\mathbf W^1, \mathbf W^2, \mathbf b^1, \mathbf b^2}(\mathbf x^k)-\mathbf y^k \parallel^2 =\frac{1}{2}\sum_{q=1}^{d^p}(\mathbf y^k_q-f(z^{p,k}_q))^2$
其中，

ykq $\mathbf y^k_q$ 表示，第

yk $y^k$ 的第

q $q$ 个分量。

为简便起见，也可以写成

J (W, b; x k, y k) = 1 2 \sum q = 1 d p (y k q - f (z p q)) 2

$J(\mathbf W, \mathbf b; \mathbf x^k,\mathbf y^k)=\frac{1}{2}\sum_{q=1}^{d^p}(\mathbf y^k_q-f(z^p_q))^2$

考虑整个训练集，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k)

$J(\mathbf W, \mathbf b)=\sum_{k=1}^mJ(\mathbf W, \mathbf b; \mathbf x^k, y^k)$

考虑到对 $\mathbf W^1$ 和 $\mathbf W^2$ 进行正则化，以避免过拟合，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k) + λ 2 \sum l = 1 p - 1 \sum i = 1 d l \sum j = 1 d l + 1 (W l j, i) 2

$J(\mathbf W, \mathbf b)=\sum_{k=1}^mJ(\mathbf W, \mathbf b; \mathbf x^k, y^k)+\frac{\lambda}{2}\sum_{l=1}^{p-1}\sum_{i=1}^{d^l}\sum_{j=1}^{d^{l+1}}(\mathbf W^l_{j,i})^2$

这篇关于[deeplearning-003] 一般形式的反向传导算法BP最简推导-1的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！