留出专题

机器学习的一些问题自我总结、留出法交叉验证(holdout cross-validation)和k-fold交叉验证的优缺点

自己先理解记录一下,有误后期再修改咯 留出法交叉验证  优点: 这个方法操作简单,只需随机把原始数据分为三组即可。 缺点: 如果只做一次分割,它对训练集、验证集和测试集的样本数比例,还有分割后数据的分布是否和原始数据集的分布相同等因素比较敏感,不同的划分会得到不同的最优模型,而且分成三个集合后,用于训练的数据更少了。   k-fold交叉验证 优点:在一个限度内 k 的值越大越好。

需要留出10% 的数据进行预daiding

折交叉验证可以估计预测错误:在多份样本上估计错误来估计错误边界。通过为训练集分配更多样本,生成的模型会产生更低的泛化错误,具备更好的预测性能。 例如,如果选择10 折交叉验证,每次训练只需要留出10% 的数据进行预测。n 折交叉验证是以更多的训练时间作为代价。保留一个固定的集合作为测试集可以有更快的训练速度,因为它只需要扫描一遍训练数据。 CrVa的优点 1、优于L-oCrVa:平均k