[deeplearning-004] 一般形式的反向传导算法BP最简推导-2

本文主要是介绍[deeplearning-004] 一般形式的反向传导算法BP最简推导-2，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

3.2 梯度下降
训练神经网络，就是让 $J(\mathbf W, \mathbf b)$ 的值最小。解法就是梯度下降，或者随机梯度下降。
梯度下降法的迭代公式是：

(W l j, i) s + 1 = (W l j, i) s - η \partial J ( W , b ) \partial W l j , i ∣ W l j, i = (W l j, i) s

$(\mathbf W^l_{j,i})_{s+1} =(\mathbf W^l_{j,i})_s-\eta \frac{\partial J(\mathbf W, \mathbf b)}{\partial \mathbf W^l_{j,i}}\lvert_{\mathbf W^l_{j,i} =(\mathbf W^l_{j,i})_s}$

(b l j) s + 1 = (b l j) s - η \partial J ( W , b ) \partial b l j ∣ b l i = (b l j) s

$(\mathbf b^l_{j})_{s+1}=(\mathbf b^l_{j})_s-\eta \frac{\partial J(\mathbf W, \mathbf b)}{\partial \mathbf b^l_{j}}\lvert_{\mathbf b^l_{i}=(\mathbf b^l_{j})_s}$
其中，

s $s$ 是迭代次数，

η $\eta$ 是学习速率。

上两式的一阶偏导又可以写成：

\partial J ( W , b ) \partial W l j , i = \sum k = 1 m \partial \partial W l j , i J (W, b; x k, y k) + λ W l j, i

$\frac{\partial J(\mathbf W, \mathbf b)}{\partial \mathbf W^l_{j,i}}=\sum_{k=1}^m\frac{\partial}{\partial \mathbf W^l_{j,i}}J(\mathbf W, \mathbf b;\mathbf x^k,y^k)+\lambda\mathbf W^l_{j,i}$

\partial J ( W , b ) \partial b l j = \sum k = 1 m \partial \partial b l j J (W, b; x k, y k)

$\frac{\partial J(\mathbf W, \mathbf b)}{\partial \mathbf b^l_j}=\sum_{k=1}^m\frac{\partial}{\partial \mathbf b^l_j}J(\mathbf W, \mathbf b;\mathbf x^k,\mathbf y^k)$

3.2.1 输出层 $L^p$ 和隐层 $L^{p-1}$ 之间的权重矩阵 $\mathbf W^{p-1}$ 一阶偏导求解并推广到一般情形

我们可以把神经网络视为一个复杂一点的函数，自变量 $\mathbf x$ 经过一系列函数的操作，输出因变量 $\mathbf y$ ， $\mathbf y$ 是由 $\mathbf W$ 和 $\mathbf b$ 决定的，优化输出结果，需要调整 $\mathbf W$ 和 $\mathbf b$ 。