Ng深度学习笔记机器学习策略（上）

本文主要是介绍Ng深度学习笔记机器学习策略（上），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

机器学习（ML）策略

正交化（Orthogonalization）
单一数字评估指标
满足和优化指标（Satisficing and optimizing metrics）
训练/开发/测试集划分（Train/dev/test distributions）
开发集和测试集的大小（Size of dev and test sets）
什么时候该改变开发/测试集和指标？（When to change dev/test sets and metrics）
为什么是人的表现？
可避免偏差（Avoidable bias）
理解人的表现（Understanding human-level performance）
超过人的表现（Surpassing human- level performance）
改善模型的表现

正交化（Orthogonalization）

机器学习系统的挑战之一是，可以尝试和改变的东西太多太多了。比如说，有很多超参数可以调。

Orthogonalization的核心在于每次调试一个参数只会影响模型的某一个性能，而不会影响其它功能。也就是说彼此旋钮之间是互不影响的，是正交的，这也是Orthogonalization名称的由来。这种方法能够让我们更快更有效地进行机器学习模型的调试和优化。

对应到机器学习监督式学习模型中，可以大致分成四个独立的“功能”，每个“功能”对应一些可调节的唯一的旋钮。四个“功能”如下：

Fit training set well on cost function
Fit dev set well on cost function
Fit test set well on cost function
Performs well in real world

其中，第一条优化训练集可以通过使用更复杂NN，使用Adam等优化算法来实现；第二条优化验证集可以通过正则化，采用更多训练样本来实现；第三条优化测试集可以通过使用更多的验证集样本来实现；第四条提升实际应用模型可以通过更换验证集，使用新的cost function来实现。概括来说，每一种“功能”对应不同的调节方法。而这些调节方法（旋钮）只会对应一个“功能”，是正交的。

early stopping在模型功能调试中并不推荐使用。因为early stopping在提升验证集性能的同时降低了训练集的性能。也就是说early stopping同时影响两个“功能”，不具有独立性、正交性。

单一数字评估指标

构建、优化机器学习模型时，单值评价指标非常必要。有了量化的单值评价指标后，我们就能根据这一指标比较不同超参数对应的模型的优劣，从而选择最优的那个模型。

比如有A和B两个模型，它们的准确率（Precision）和召回率（Recall）分别如下：

这里写图片描述

如果只看Precision查准率的话，B模型更好。如果只看Recall查全率的话，A模型更好。实际应用中，我们通常使用单值评价指标F1 Score来评价模型的好坏。F1 Score综合了Precision和Recall的大小，计算方法如下：

$\frac{2}{\frac{1}{P} + \frac{1}{R}}$

通过引入单值评价指标F1 Score，很方便对不同模型进行比较。

除了F1 Score之外，我们还可以使用平均值作为单值评价指标来对模型进行评估。如下图所示，A, B, C, D, E, F六个模型对不同国家样本的错误率不同，可以计算其平均性能，然后选择平均错误率最小的那个模型（C模型）。
在这里插入图片描述

满足和优化指标（Satisficing and optimizing metrics）

构成单值评价指标有时比较困难的。解决办法：

优化指标（Optimizing metic），寻求最优化值；
满意指标（Satisficing metic），满足阈值就行。

训练/开发/测试集划分（Train/dev/test distributions）

Train/dev/test sets如何设置对机器学习的模型训练非常重要，合理设置能够大大提高模型训练效率和模型质量。

原则上应该尽量保证dev sets和test sets来源于同一分布且都反映了实际样本的情况。如果dev sets和test sets不来自同一分布，那么我们从dev sets上选择的“最佳”模型往往不能够在test sets上表现得很好。

开发集和测试集的大小（Size of dev and test sets）

在之前的课程中我们已经介绍过，当样本数量不多（小于一万）的时候，通常将Train/dev/test sets的比例设为60%/20%/20%，在没有dev sets的情况下，Train/test sets的比例设为70%/30%。当样本数量很大（百万级别）的时候，通常将相应的比例设为98%/1%/1%或者99%/1%。

dev sets数量的设置的准则: 是通过dev sets能够检测不同算法或模型的区别，以便选择出更好的模型。

test sets数量的设置的准则: 是通过test sets能够反映出模型在实际中的表现。

实际应用中，可能只有train/dev sets，而没有test sets。这种情况也是允许的，只要算法模型没有对dev sets过拟合。但是，条件允许的话，最好是有test sets，实现无偏估计。

什么时候该改变开发/测试集和指标？（When to change dev/test sets and metrics）

算法模型的评价标准有时候需要根据实际情况进行动态调整，目的是让算法模型在实际应用中有更好的效果。

举个猫类识别的例子。初始的评价标准是错误率，算法A错误率为3%，算法B错误率为5%。显然，A更好一些。但是，实际使用时发现算法A会通过一些色情图片，但是B没有出现这种情况。从用户的角度来说，他们可能更倾向选择B模型，虽然B的错误率高一些。这时候，我们就需要改变之前单纯只是使用错误率作为评价标准，而考虑新的情况进行改变。例如增加色情图片的权重，增加其代价。

其中一个修改评估指标的方法是，这里（ $\frac{1}{m_{{dev}}}$ 与 $\sum_{i =1}^{m_{{dev}}}{I{ y_{{pred}}^{(i)} \neq y^{(i)}}}$ 之间）加个权重项，即：

$\frac{1}{m_{{dev}}}\sum_{i = 1}^{m_{{dev}}}{w^{(i)}I{ y_{{pred}}^{(i)} \neq y^{(i)}}}$

我们将这个称为 $w^{\left( i \right)}$ ，其中如果图片 $x^{(i)}$ 不是色情图片，则 $w^{\left( i \right)} = 1$ 。如果 $x^{(i)}$ 是色情图片， $w^{(i)}$ 可能就是10甚至100，这样你赋予了色情图片更大的权重，让算法将色情图分类为猫图时，错误率这个项快速变大。这个例子里，你把色情图片分类成猫这一错误的惩罚权重加大10倍。

如果你希望得到归一化常数，在技术上，就是 $w^{(i)}$ 对所有 $i$ 求和，这样错误率仍然在0和1之间，即：

$\frac{1}{\sum_{}^{}w^{(i)}}\sum_{i = 1}^{m_{{dev}}}{w^{(i)}I{ y_{{pred}}^{(i)} \neq y^{(i)}}}$

加权的细节并不重要，实际上要使用这种加权，你必须自己过一遍开发集和测试集，在开发集和测试集里，自己把色情图片标记出来，这样你才能使用这个加权函数。

概括来说，机器学习可分为两个过程：

Define a metric to evaluate classifiers

How to do well on this metric

第一步是找靶心，第二步是通过训练，射中靶心。但是在训练的过程中可能会根据实际情况改变算法模型的评价标准，进行动态调整。

为什么是人的表现？

在这里插入图片描述
图中，横坐标是训练时间，纵坐标是准确性。机器学习模型经过训练会不断接近人类水平甚至超过它。但是，超过h人类水平之后，准确性会上升得比较缓慢，最终不断接近理想的最优情况，我们称之为贝叶斯最优错误率。理论上任何模型都不能超过它，它代表了最佳表现。

完美的准确率可能不是100%。也许一些图像非常模糊，不管是人类还是机器，都无法判断该图片中是否有猫。所以，完美的准确度可能不是100%。

而贝叶斯最优错误率有时写作Bayesian，即省略optimal，就是从 $x$ 到 $y$ 映射的理论最优函数，永远不会被超越。

知道人类在特定任务上能做多好可以帮助你更好地了解你应该重点尝试减少偏差，还是减少方差。

可避免偏差（Avoidable bias）

实际应用中，要看human-level error，training error和dev error的相对值。例如猫类识别的例子中，如果human-level error为1%，training error为8%，dev error为10%。由于training error与human-level error相差7%，dev error与training error只相差2%，所以目标是尽量在训练过程中减小training error，即减小偏差bias。如果图片很模糊，肉眼也看不太清，human-level error提高到7.5%。这时，由于training error与human-level error只相差0.5%，dev error与training error只相差2%，所以目标是尽量在训练过程中减小dev error，即方差variance。这是相对而言的。
在这里插入图片描述

对于物体识别这类CV问题，人类错误率是很低的，很接近理想情况下的bayes optimal error。因此，上面例子中的1%和7.5%都可以近似看成是两种情况下对应的bayes optimal error。实际应用中，我们一般会用人类错误率代表bayes optimal error。

通常，我们把训练误差与人类误差之间的差值称为偏差，也称作可避免偏差；把dev错误率与训练误差率之间的差值称为方差。根据偏差和方差值的相对大小，可以知道算法模型是否发生了欠拟合或者过拟合。

实际应用中，要看人类水平错误率，训练错误和测试错误的相对值。例如猫类识别的例子中，如果人类水平为1%，训练错误为8%，测试错误为10%。由于训练错误率与人类水平相差7%，测试误差与训练误差只相差2%，所以目标是尽量在训练过程中减小训练错误，即减小偏差bias。如果图片很模糊，肉眼也看不太清，人类水平错误率提高到7.5%。这时，由于训练错误与人类水平只相差0.5%，测试错误与训练错误只相差2%，所以目标是尽量在训练过程中减小测试错误，即方差。

理解人的表现（Understanding human-level performance）

不同人可能选择的human-level performance基准是不同的，这会带来一些影响。

对人类水平有大概的估计可以让你做出对贝叶斯错误率的估计，这样可以让你更快地作出决定是否应该专注于减少算法的偏差，或者减少算法的方差。这个决策技巧通常很有效，直到你的系统性能开始超越人类，那么对贝叶斯错误率的估计就不再准确了，但这些技巧还是可以帮你做出明确的决定。

超过人的表现（Surpassing human- level performance）

我们讨论过机器学习进展，会在接近或者超越人类水平的时候变得越来越慢。

机器学习团队都可以访问大量数据，所以比如说，那四个应用中，最好的系统看到的数据量可能比任何人类能看到的都多，所以这样就相对容易得到超越人类水平的系统。现在计算机可以检索那么多数据，它可以比人类更敏锐地识别出数据中的统计规律。

除了这些问题，今天已经有语音识别系统超越人类水平了，还有一些计算机视觉任务，一些图像识别任务，计算机已经超越了人类水平。但是由于人类对这种自然感知任务非常擅长，我想计算机达到那种水平要难得多。还有一些医疗方面的任务，比如阅读ECG或诊断皮肤癌，或者某些特定领域的放射科读图任务，这些任务计算机做得非常好了，也许超越了单个人类的水平。

超越人类的表现往往不容易，但如果有足够多的数据，已经有很多深度学习系统，在单一监督学习问题上已经超越了人类的水平。

改善模型的表现

提高机器学习模型性能主要要解决两个问题：avoidable bias和variance。我们之前介绍过，training error与human-level error之间的差值反映的是avoidable bias，dev error与training error之间的差值反映的是variance。

解决偏差和方差的常用方法包括：

在这里插入图片描述

这篇关于Ng深度学习笔记机器学习策略（上）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Ng深度学习笔记机器学习策略（上）

机器学习（ML）策略

正交化（Orthogonalization）

单一数字评估指标

满足和优化指标（Satisficing and optimizing metrics）

训练/开发/测试集划分（Train/dev/test distributions）

开发集和测试集的大小（Size of dev and test sets）

什么时候该改变开发/测试集和指标？（When to change dev/test sets and metrics）

为什么是人的表现？

可避免偏差（Avoidable bias）

理解人的表现（Understanding human-level performance）

超过人的表现（Surpassing human- level performance）

改善模型的表现

相关文章

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

Python 中的异步与同步深度解析(实践记录)

Redis中高并发读写性能的深度解析与优化

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

Java进阶学习之如何开启远程调式

Redis 内存淘汰策略深度解析(最新推荐)

Python与DeepSeek的深度融合实战

Java深度学习库DJL实现Python的NumPy方式

最长公共子序列问题的深度分析与Java实现方式

Go中sync.Once源码的深度讲解

Ng深度学习笔记 机器学习策略（上）

机器学习（ML）策略

正交化（Orthogonalization）

单一数字评估指标

满足和优化指标（Satisficing and optimizing metrics）

训练/开发/测试集划分（Train/dev/test distributions）

开发集和测试集的大小（Size of dev and test sets）

什么时候该改变开发/测试集和指标？（When to change dev/test sets and metrics）

为什么是人的表现？

可避免偏差（Avoidable bias）

理解人的表现（Understanding human-level performance）

超过人的表现（Surpassing human- level performance）

改善模型的表现

相关文章

Ng深度学习笔记机器学习策略（上）