向毕业妥协系列之机器学习笔记:构建ML系统(三)

本文主要是介绍向毕业妥协系列之机器学习笔记:构建ML系统(三)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一.机器学习开发的迭代

二.误差分析

三.添加更多数据

四.迁移学习

五.机器学习项目的完整周期

一.机器学习开发的迭代

然后我们以识别垃圾电子邮件为例来讲解一下这个过程

如上图，结合英文看，右侧是一封电子邮件，咱们从英语字典里把最常用的10000个单词取出来，然后输入数据就是一个有10000个特征的向量，遍历邮件，出现了哪个单词，单词在x中的对应位置就置为1。另一种方式是不止置为1，而是记录对应的那个单词的出现次数。当然吴佬说置为1效果就很不错。

然后在我们开发的过程中，肯定还会遇到很多问题，需要咱们具体问题具体分析。

二.误差分析

就选择下一步要做什么来而言，偏差和方差的重要性是第一位的，误差分析是第二位的。

错误分析需要咱们手动来实现，如果数量比较多，比如验证集里有5000个训练示例，其中1000个被错误分类了，那么咱们可以从这1000个当中抽样100个来分析。

三.添加更多数据

获取大量的数据可能耗时，昂贵。有一种方法时基于已有的训练数据来新增训练数据，“数据增强”。

比如把带有字母A的图片进行旋转，放大，缩小，扭曲等操作，新生成新的图片，但这仍然代表字母A。

同样的，语音识别也可以应用这种技术，即给真实数据添加一点噪音形成新的数据。当然对现有数据进行修改和添加噪声等不是随意的操作，而是有针对性的，并且要检测的数据相似。

另一种新增数据的方法是“数据合成”。

传统的机器学习模型和现在的侧重点对比：

四.迁移学习

迁移学习可以把别的模型的部分参数直接拿到自己的模型中来用。看一下下面的例子就明白了。

注：fine tune：微调

上面的例子场景是现在我们想识别手写数字，但是手写数字的图片却不多，但是猫，狗，车和人的图片（1000个种类，所以最后输出层有1000个神经元，共一百万张图片）却充足，所以上图上面的那个模型是识别猫，狗，车，人等的模型；然后咱们现在要构建手写数字识别的模型，看到上图下面那个模型，也是五层的神经网络，前四层咱们直接把上面的那个模型已经训练好的前四层的参数直接拿过来用，然后现在是识别0~9，所以输出层有10个神经元，现在咱们只需要训练下面的这个模型的输出层的参数即可，前四层就不用训练了（因为直接借用了上面模型的前四层参数）。这时候我们需要的训练集大小就可以很小了，比如50张手写体数字的图片？So magic!

这个我们也有两种选择：