[FML]学习笔记一Cross-validation交叉验证

本文主要是介绍[FML]学习笔记一Cross-validation交叉验证，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在实际的工程中，有时labeled data的数量不足以留出validation sample(验证样本)否则会导致training sample(训练样本)的数量太少。为了解决这个问题，我们引入一种叫做 n-fold cross-validation（n重交叉验证）的方法。

clip_image001

图片1.1

如图1.1所示，n-fold cross-validation的步骤如下:

1.首先随机的将大小为m的总标记样本分为n个fold(子样本)，通常每个子样本的大小相同为mi=m/n。

2.对于每一个子样本mi，算法在除了该子样本的所有子样本上训练，得到一个hypothesis，将得到的hypothesis在该子样本mi上进行test得到error。

3.最终在所有的hypothesis中选择error最小的hypothesis。

这里的error为cross-validation error，不是只在mi上test，而要在所有的fold中进行test并得到平均值：

clip_image002

那么，如何选择n的值也就是子样本fold的数量呢？这里涉及到了一个bias和variance权衡的问题：

bias和variance的定义：

bias：a learner's tendency to consistently learn the same wrong thing.即度量了某种学习算法的平均估计结果所能逼近学习目标的程度。

variance：the tendency to learn random things irrespective of the real signal.即度量了在面对同样规模的不同训练集时，学习算法的估计结果发生变动的程度。

用stanford机器学习讲义上的一张图就能很好的解释二者的区别:

clip_image003

图片1.2

当n取的很大时，validation fold的大小很小，相应的training sample的大小就很大，那么算法就有可能会出现small bias high variance的情况，也就是对于training sample出现了过拟合，而对于不在training sample中的点并不能做很好的预测。

当n取的很小时，相应的validation fold的大小很大，training sample的大小很小，也就会出现small variance high bias的情况。

通常在实际的工程中，n取5或者10。

在实际的工程中，首先要将sample分为training sample和test sample，再在training sample中跑n-fold cross validation，得到的cross-validation error最小的Θ并不是直接得到hypothesis，而是作为θ0再在所有的training sample中再次train，并将最终的结果在test sample上测试。

转载于:https://www.cnblogs.com/StartoverX/p/3994501.html

这篇关于[FML]学习笔记一Cross-validation交叉验证的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！