本文主要是介绍【结构化机器学习项目】Lesson 1--机器学习策略1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
课程来源:吴恩达 深度学习课程 《结构化机器学习项目》
笔记整理:王小草
时间:2018年6月1日
为什么我们需要使用机器学习策略?因为机器学习策略可以帮助我们在正确的方向上优化模型。
本文主要分成4部分,
第一部分介绍一下什么是正交化;
第二部分介绍监督模型的评价指标;
第三部分介绍训练集/开发集/测试集的划分;
第四部分比较模型与人的表现。
这些都是一些机器学习模型训练过程中的细节注意点,能帮助你有效地进行模型的训练与优化,从而事半功倍。
1.orthogonalization(正交化)
牛逼的机器学习大神们需要具备的基本特点是,他们清晰地知道,为了实现某个效果,需要去调整什么东东。这个步骤称之为正交化(orthogonalization)。
一个表现好的有监督系统需要在以下4个维度上确保:
(1)至少要在training set上表现优秀
否则应采取措施:增加训练集/更换更好的算法
(2)也要在dev set上表现优秀
否则应采取措施:增大训练集/正则化
(3)也要在test set上表现优秀
否则应采取措施:改变开发集或成本函数
(4)在真实世界的数据上表现优秀
- 表现优秀不优秀需要事先确定一个评估模型的指标。
- 不建议采用early stoping来防止过拟合,这样会影响训练集的拟合
2.evaluation metric(评估指标)
2.1 single number evaluation metric(单一数字评估指标)
为了评估模型的表现,需要确定一个评估指标,来快速地告诉你,当前模型到底还是比你上一个模型更好了还是更差了。
2.1.1 常用指标
在分类模型中,常用的指标如下:
(1)recall
真实正例有多少比例被模型也预测为正例了。
(2)precision
预测的正例中有多少比例是真实的正例。
(3)F1 score
recall与precision是需要权衡,在recall上表现好,可能在precision上表现就差了,为了可以统一评估这两个指标,可以使用F1 score.
计算公式如下:
F1_score = 2 / (1/precision + 1/recall)
2.1.2 如何评估
使用训练集训练好模型之后,用模型预测dev set的样本,并计算以上指标在sev set上的表现来评估模型。
这篇关于【结构化机器学习项目】Lesson 1--机器学习策略1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!