本文主要是介绍机器学习高方差和高偏差问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在讲模型高方差和高偏差问题前,先聊聊数据集分配和模型选择。为了使得模型具有更好的泛化能力,我们在数据集分配问题上采用了6:2:2的分配原则,60%作为训练集,20%作为交叉验证集,20%作为测试集。当选择模型时用训练集训练得到模型的一组权重,将这组权重带入到模型中,并用交叉验证集求出损失值,选取损失值最小的那一个模型,最后就可用从未和模型拟合过的测试集计算学习算法误差。
接下来我们一起探讨一下模型的高偏差和高方差问题。
如上图是吴恩达课程中的一组图片,第一幅图是模型出现了高偏差(欠拟合),第二幅图是最佳的模型,第三幅图模型出现了高方差(过拟合),机器学中的欠拟合和过拟合对模型的精度都没有帮助,因此归纳一下可以从一下几个方面解决过拟合和欠拟合问题:
当模型出现高偏差时:
增加特征种类
增加多项式的次数
降低lamda值(正则化项的系数)
当模型出现高方差时:
增加数据集
剔除一部分特征(dropout)
增加lamda值(正则化项的系数
这篇关于机器学习高方差和高偏差问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!