本文主要是介绍吴恩达机器学习训练秘籍整理一到十章(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
第一到四章:
1.为什么选用机器学习策略。机器学习是无数重要应用的基础。
2.先修知识与符号标记。有监督学习的经验。了解机器学习。
3.驱动机器学习发展的原因。数据的可用性和计算规模。
传统算法和神经网络算法在数据集较小的情况下区别不大,但是随着数据集的增加和网络层数的加深,效果会越来越好。
假设我们要做的产品是一个APP,用户上传图片我们来自动的找到图中有猫的照片。
第五章:
这一章主要介绍测试集,开发集和训练集。
我们训练自己的网络需要先收集大量猫的数据集(正样本)和不含有猫的数据集(负样本)。将这些数据集按照7:3的比例划分为训练集和测试集。
1.训练集:训练你的算法
2.开发集:用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为留出交叉验证集(hold-out cross validation set)。在训练的过程中对算法进行评价。
3.测试集:评估算法的好坏。训练结束后对模型进行评价
对于数据较少的机器学习来说一般按照7:3或者8:2来划分。加入开发集一般按照6:2:2来进行划分。
对于深度学习的大量数据来说一般按照98:1:1来进行划分。
第六章:
开发集和测试集应该服从同一分布。
第七章:
开发集和测试集应该有多大?
1. 开发集的大小应该在1000-10000之间。主要还是看你所在的领域对于精度的要求有多高,要求的精度越高开发集就应该越多。
2. 虽然现在我们机器学习的数据在不断的增加,因此开发集和测试集的数据的绝对数量都在增加,可是总体上分配给他们的比例是在减少的。因此也可以看出来开发集和测试集并不是越大越好。
第八章:
查准率(精度)和查全率(召回率)
查准率:在训练集(或者测试集中)被预测为猫的图片中,实际类别是猫的样本比例。
查全率:在训练集(或者测试集中)所有类别为猫的图片中,被准确识别为猫的比例。
在开发过程中有可能只需要考虑其中的一个标准就可以,或者将两个标准合并在一起来评价算法的好坏。
第九章:
优化指标和满意度指标。多评价指标问题。
假设我们既要关心算法的准确率又要关心其运行时间。
我们将准确率和时间放入到公式里面计算得出单个指标,这似乎不太自然
Accuracy-0.5*Running time
我们可以采用一个代替方案,首先定义一个我们可以接受的程序运行时间100ms。然后再在这个运行时间之内找一个准确率最高的分类器,这样我们就可以找到分类器B。此时时间在这里就是一个‘满意度指标’,而准确率就是一个‘优化指标’。
假设我们有N个不同的标准,比如运行时间,模型大小和准确率这三个标准。我们可能需要考虑N-1个满意度指标,下一步定义一个优化指标。例如时间和模型大小是满意度指标,准确率是优化指标。
第十章:
如何解决面临的问题
1.尝试一些新的想法。
2.通过代码实现想法。
3.根据实验判断想法是否行得通。
上图所示循环迭代的越快,我们的进展就会越快。此时拥有开发集、测试集和度量指标的重要性便得以体现了:每当你有了一个新想法,在开发集上评估其性能可以帮你判断当前的方向是否正确。
这篇关于吴恩达机器学习训练秘籍整理一到十章(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!