Datawhale X 李宏毅苹果书 AI夏令营《深度学习详解》第二章实践方法论

本文主要是介绍Datawhale X 李宏毅苹果书 AI夏令营《深度学习详解》第二章实践方法论，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在应用机器学习算法时，实践方法论能够帮助我们更好地训练模型。

2.1 模型偏差

假设模型过于简单，一个有未知参数的函数代 $\theta _{1}$ 得到一个函数 $f_{\theta _{1}}\left ( x \right )$ ，同理可得到另一个函数 $f_{\theta _{2}}\left ( x \right )$ ，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 $\theta ^{\ast }$ ，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。

可能是由于模型的灵活性不够，导致了模型偏差，我们可以通过增加更多的特征构建一个更大的模型来解决这个问题，但是训练的时候损失大也不一定都是模型偏差导致的，还有一个优化问题需要解决

2.2 优化问题

一般来说，梯度下降是最常用到的优化方法，但是其实这个方法会导致局部最小值的问题，也就是损失小的函数就在集合里，但是我们没有办法找到它，这种情况其实就是模型的灵活性够了，但是优化梯度下降不够的问题。那我们如何判断呢，一个方法就是通过比较不同的模型来判断模型现在到底够不够大。

遇到一个新的问题的时候可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机（Support Vector Machine，SVM），SVM 可能是比较容易做优化的，相比之下不会有优化失败的问题。这些模型它会竭尽全力的，在它们的能力范围之内，找出一组最好的参数，这样我们就可以先知道这些简单的模型，到底可以得到什么样的损失。

接下来选择一个深的模型，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低，说明优化有问题，梯度下降不给力，因此要有一些其它的方法来更好地进行优化，反之则可能是灵活性不足。但如果训练数据上面的损失小，测试数据上的损失大，则可能是过拟合的问题

2.3 过拟合

模型过于灵活

解决过拟合问题的方法有两个：

增加训练集，这样即使模型的灵活性很大，也可以通过很多的点限制住它。我们可以尝试做数据增强（data augmentation），就是根据问题的理解创造出新的数据，这个方法并不算是使用了额外的数据。但是我们要根据对数据的特性以及要处理的问题的理解，来选择合适的数据增强的方式。

给模型一些限制，让模型不要有过大的灵活性。但是也不能给模型太大的限制，不然可能会导致模型偏差问题，我们要在其中要出一个平衡点。
- 给模型比较少的参数。如果是深度学习的话，就给它比较少的神经元的数量，本来每层一千个神经元，改成一百个神经元，或者让模型共用参数，可以让一些参数有一样的数值。全连接网络（fully-connected network）其实是一个比较有灵活性的架构，而卷积神经网络（Convolutional Neural Network，CNN）则是一个比较有限制的架构，其针对图像的特性来限制模型的灵活性。所以全连接神经网络可以找出来的函数所形成的集合其实是比较大的，CNN 所找出来的函数它形成的集合其实是比较小的
- 用比较少的特征。
- 还有别的方法，比如早停（early stopping）、正则化（regularization）和丢弃法（dropoutmethod）等。

2.4 交叉验证

比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集（training set），一部分是验证集（validation set）。在训练集上训练出来的模型会使用验证集来衡量它们的分数，根据验证集上面的分数去挑选结果，再把这个结果上传到 Kaggle 上面得到的公开分数。

理想上就用验证集来挑选最小的损失的情况，有过比较好的基线（baseline）算法以后，就不要再去动它了，就可以避免在测试集上面过拟合。但是会有一个问题，如果随机分验证集，可能会分得不好，分到很奇怪的验证集，会导致结果很差，这个时候我们可以用 k 折交叉验证（k-foldcross validation）的方法来提高结果的可信度和稳定性。k 折交叉验证就是先把训练集切成 k 等份，拿其中一份当作验证集，剩下的部分当训练集，这件事情重复 k 次。

这个时候我们得到了 k 个模型，不知道哪一个是好的。把这 k 个模型，在这 k 个设置下，在这 k 个训练跟验证的数据集上面，全部跑一次，然后把这 k 个模型在这 k 种情况的结果都平均起来，看看哪一个模型的情况是最好的，最后选择那一个模型放在全部的训练集上进行训练，将训练出来的模型再运用到测试集上面，这就是我们最终得到的结果。