利用学习曲线诊断机器学习算法

本文主要是介绍利用学习曲线诊断机器学习算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2019/04/21

引言

前几天的时候，在吴恩达的那本机器学习书上看到了这个内容，联想到最近在做的这个实验，的确是那种过拟合的趋势，所以就想着把这个部分来学习一下，然后找到解决方案来缓解我这边的这个症结。

初步的学习

（前端时间也说了，我记笔记一直是按照资源管理的方式来记录的，这样不好，应该记下来自己的见解 2019/04/21）
在以往教科书式的学习过程中，我们都被图1、图2这种形式被教导过拟合与欠拟合的概念。

图1 - 过拟合与欠拟合

图2 - 模型复杂度与分数

但是实际情况是，高维数据情况下看不到曲线穿过各个点的形式，很多算法的模型复杂度也并不能量化，最终导致你没办法看到上述的两个图。平时做的更多的是，根据某个参数的调整，来查看类似上述的图像，也不失为一种有效的办法，但在参数较多的时候，又陷入了高维数据无法可视化的困难。
但学习曲线可以帮助你完成这个类似的目标，通过将训练数据的个数作为横轴，将训练误差与测试误差随横轴变化的两条曲线分别画出来，就能很好的模拟出来这种曲线，如图3所示。

图3-学习曲线（代码就是sklearn中的示例源码）

图3是我在做实验的时候，生成的一个图。当时调整了一个类似惩罚因子的参数，本来过拟合的图就变成了这样。
对于过拟合与欠拟合的概念，还有什么bias vs variance什么的，这里就不在赘述了。我觉得，掌握这个内容，单单就是从书上那点内容，通过图1、图2来讲解这整个内容根本不够，最重要的还是找一个真实的数据集来展示出来这个过程。
文章[1]从最基础的内容开始，按照实验步骤，将过拟合与欠拟合、学习曲线、验证曲线的内容都给介绍了出来。
欠拟合：高bias，需要提高模型复杂度，学习曲线展现为，测试误差与训练误差逐渐重合，并且数值较大，如图4所示。

图4-欠拟合[1]

过拟合：高variance，需要降低模型复杂度，学习曲线展现为，训练误差很低，非常平稳，但测试误差要高的多，特别是随着数据集大小的提升，测试误差也趋于平稳，如图5所示

图5-过拟合

深入探讨

在吴恩达的那本机器学习书籍中，对于这部分内容进行了详细的探讨，包括哪些部分的误差是bias，哪些部分是variance，重点应该放在他提供的解决方案上，文章[3]算是一个简版的说明，在进行区分的时候，主要集中在两种情况：高bias，高variance。

学习资源

文章[1]的内容，作为比较基础的介绍，配有相应的代码，非常适合入门学习；文章[2]也是简单的介绍，他提出的一个见解是，利用学习曲线来诊断是否是具有代表性的数据集；文章[4]应该是他学了了吴恩达的课程，然后凝练出来的一些关键点。

2019/07/20 实际情况的解释
下面这几篇文章，我也多读了几篇，然后这次也一直在做相应的实践。然后就是发现这个东西涵盖的内容还是非常多的。单单从什么过拟合和欠拟合的角度来解决这个问题，貌似并不是非常奏效，可能有很大一部分原因，是因为那部分数据就是很尴尬，所以再也调整不上去了。文章[3]算是解释的比较清楚得了。

解决方案

文章[4]中上述这个图片，基本上算是把所有的就觉方案都给提出来了把。
然后就是一个比较关键的部分，你的数据有些部分的内容他就是容易分错，可能是因为特征不好，也可能是因为他属于小概率的类别，正如文献[4]中所说，他的预测概率一直在0.5之间。

参考文献

[1]week6-andrew-ng-machine-learning-with-python.html
[2]learning-curves-for-diagnosing-machine-learning-model-performance
[3]learning-curves-machine-learning/
[4]machine-learning-diagnostics

这篇关于利用学习曲线诊断机器学习算法的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！