Datawhale AI 夏令营（第五期）李宏毅苹果书 Task 1 《深度学习详解（进阶）》

本文主要是介绍Datawhale AI 夏令营（第五期）李宏毅苹果书 Task 1 《深度学习详解（进阶）》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

纸质版教材指路（享五折优惠~）：京东网上商城

李宏毅老师对应视频课程：请注意文字和视频搭配食用哟~

神经网络训练不起来怎么办（1）：局部最小值（：Loacl Minima）与鞍点（Saddle Point）_哔哩哔哩_bilibili神经网络训练不起来怎么办（2）：批次（batch）与动量（Momentum）_哔哩哔哩_bilibili

Task 1.1 《深度学习详解》- 3.1 局部极小值与鞍点

隐藏任务①：搜索资料，找到一个优化失败的案例，尝试用自己的话描述一遍情况~

案例：深度学习模型在训练过程中，损失函数在一段时间后停止下降，并且无法继续收敛。

情况描述：

问题出现：研究人员训练一个深度学习模型进行图像分类任务。在训练初期，损失函数逐渐下降，模型性能不断提高。然而，随着训练的进行，损失函数在某个点停止下降，并且无论怎样调整学习率或参数，都无法让损失函数继续下降。
原因分析：
- 研究人员怀疑模型遇到了局部极小值或鞍点。
- 局部极小值意味着模型已经到达当前训练空间内的最低点，无法进一步降低损失。
- 鞍点则意味着模型处于一个“平坦”的区域，周围既有下降的方向，也有上升的方向，梯度为零，导致模型无法继续更新。
解决方案尝试：
- 研究人员尝试了多种方法来逃离这个“陷阱”：
  - 调整学习率：降低学习率，让模型在损失函数曲面上更加缓慢地移动，试图找到一条通往更低损失的道路。
  - 使用随机初始化：重新初始化模型的参数，让模型从不同的起点开始训练，尝试找到不同的路径。
  - 使用正则化技术：添加正则化项，防止模型过拟合，并增加损失函数曲面的平滑度，降低遇到鞍点的可能性。
  - 使用更复杂的优化算法：例如Adam、SGD with momentum等，这些算法可以更好地处理鞍点，并帮助模型找到更好的路径。
结果：
- 尝试了多种方法后，研究人员发现模型仍然无法逃离这个“陷阱”。
- 最终，他们不得不放弃这个模型，并重新设计网络结构或选择其他模型。

这个案例说明了深度学习优化过程中可能遇到的挑战。局部极小值和鞍点都可能导致优化失败，需要研究人员采取各种方法来应对。

隐藏任务②：过一遍文档，给自己的理解程度打一个分数，如果低于30%，尝试配合视频食用，另外尝试问问AI，在这条任务下评论找到的参考资料和补充信息！

打分：50%吧。

局部极小值与鞍点：它解释了为什么优化可能会失败，以及如何判断和应对这些情况。

主要内容：

临界点及其种类：
- 临界点是梯度为零的点，包括局部极小值、局部极大值和鞍点。
- 局部极小值是损失函数的局部最低点，鞍点则不是，它在某些方向上损失会上升，在另一些方向上则会下降。
判断临界点种类的方法：
- 通过计算海森矩阵的特征值来判断：
  - 所有特征值为正：局部极小值
  - 所有特征值为负：局部极大值
  - 特征值有正有负：鞍点
- 文档中通过一个简单的神经网络例子，展示了如何通过海森矩阵判断临界点种类。
逃离鞍点的方法：
- 鞍点在深度学习中很常见，但并非无法逃离。
- 文档探讨了利用海森矩阵的特征向量找到更新参数的方向，从而逃离鞍点。
- 但实际中计算海森矩阵的运算量很大，因此需要寻找更高效的方法。
局部极小值与鞍点的常见性：
- 通过经验和实验，发现鞍点比局部极小值更常见。
- 这意味着在深度学习中，优化失败的原因往往是遇到鞍点，而非局部极小值。

Task 1.2 《深度学习详解》- 3.2 批量和动量

批量和动量

批量大小对梯度下降法的影响

批量梯度下降 (BGD): 使用所有训练数据计算梯度，每次更新更稳定、更准确，但计算量大。
随机梯度下降 (SGD): 使用单条数据计算梯度，更新频率高，但引入噪声，更新方向曲折。
小批量梯度下降 (Mini-batch GD): 结合了 BGD 和 SGD 的优点，使用固定大小的数据批量计算梯度，平衡了计算量和更新稳定性。
批量大小的影响:
- 计算时间: 小批量更新速度快，但回合时间长；大批量回合时间短，但更新速度慢。
- 优化效果: 小批量容易跳出局部最小值，优化效果更好；大批量更新方向稳定，但容易陷入局部最小值。
- 泛化能力: 小批量泛化能力更强，大批量容易过拟合。

动量法

原理: 受物理世界惯性启发，将前一步的更新方向与当前梯度方向结合，形成更平滑的更新路径，帮助模型跳出局部最小值或鞍点。
公式: $m_t = \lambda m_{t-1} - \eta g_t$ ，其中 $m_t$ 是动量项， $\lambda$ 是动量系数， $\eta$ 是学习率， $g_t$ 是当前梯度。
好处:
- 避免梯度下降在局部最小值或鞍点停滞不前。
- 加速收敛，提高训练效率。