为机器学习模型选择正确的度量评估（第二部分）

本文主要是介绍为机器学习模型选择正确的度量评估（第二部分），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Alvira Swalin

编译：ronghuaiyang

前戏

今天是第二部分，分类的度量。

本系列的第二部分将重点讨论分类指标

在第一部分中，我们讨论了回归中使用的一些重要指标、它们的优缺点和用例。这一部分将着重于分类中常用的度量标准，为什么我们应该在上下文中选择其中的一些。

640?wx_fmt=png

定义

在讨论每种方法的优缺点之前，让我们首先了解分类问题中使用的基本术语。如果你已经熟悉这些术语，可以跳过本节。

640?wx_fmt=png

召回率或敏感性或TPR(真阳率)：在全部真实阳性中正确识别为阳性的项目数量- TP/(TP+FN)

特异性或TNR(真阴率)：在总的阴性中正确识别为阴性的项目数量- TN/(TN+FP)

精度：在确定为阳性的总项目中，正确确定为阳性的项目数量- TP/(TP+FP)

假阳率或I型错误：在全部真阴性中错误识别为阳性的项目数量- FP/(FP+TN)

假阴率或II类错误：在全部真阳性中错误识别为阴性的项目数量- FN/(FN+TP)

640?wx_fmt=jpeg

混淆矩阵

640?wx_fmt=png

F1分数：是给出的精度和召回率的调和平均值
F1 = 2PrecisionRecall/(Precision + Recall)
准确性：分类正确总项目的百分比- (TP+TN)/(N+P)

ROC-AUC Score

ROC-AUC分数的概率解释是，如果你随机选择一个正样本和一个负样本，根据分类器，正样本排在负样本前面的概率由AUC给出。在这里，排序是根据预测值的顺序确定的。

640?wx_fmt=png

在数学上，它是由灵敏度曲线(TPR) vs FPR(1-specificity)下的面积来计算的。理想情况下，我们希望有高敏感性和高特异性，但在现实场景中，敏感性和特异性之间总是存在权衡。

ROC-AUC的一些重要特征是：

取值范围从0到1。而对于平衡数据，随机分类器的auc评分为0.5
ROC-AUC评分独立于设定的分类阈值，因为它只考虑每个预测的秩，不考虑其绝对值。F1分数不一样，在概率输出的情况下，它需要一个阈值。

Log-Loss

Log-loss是一种精度度量，它结合了概率置信度的思想，由以下二元类的表达式给出：

640?wx_fmt=png

它考虑到你的预测的不确定性基于它与实际标签的差异。在最坏的情况下，假设所有观测值都是0.5。所以log-loss就变成-log(0.5)= 0.69。因此，我们可以说，考虑到实际概率，任何大于0.6的模型都是非常糟糕的。

案例1

Log-loss 和 ROC 和 F1的对比

640?wx_fmt=png

考虑情形1(平衡数据)，看起来模型1在预测绝对概率方面做得更好，而模型2在根据观测值的真实标签对其进行排序方面做得最好。让我们用实际分数来验证：

640?wx_fmt=png

如果考虑log-loss，模型2给出log-loss的高值是最糟糕的，因为绝对概率与实际标签有很大的差异。但这与F1和AUC评分完全不一致，其中模型2的准确率为100%。此外，你还需要注意，随着阈值的不同，F1分数也在变化，默认阈值0.5更倾向于模型1而不是模型2。

由以上例子得出的推论(平衡数据集):

如果你关心的是绝对概率差，那就用log-loss吧

如果你只关心最后的类预测，你不想调整阈值，去AUC评分
f1分数对阈值很敏感，在比较模型之前，你需要先对其进行优化

案例2

如何处理不均衡数据集？

640?wx_fmt=png

这两种模型的唯一区别是它们对观测结果13和14的预测。模型1是在样本13(标签为0)的分类上做的更好，而模型2在样本14(标签为1)的分类上做的更好。我们的目标是看哪个模型实际捕获的不同分类不平衡类更好(样本很少的类别，这里是标签1)。在欺诈检测/垃圾邮件检测等问题，正样本很少，我们希望我们的模型能够正确地预测阳性类，因此我们有时会更喜欢那些能够对这些阳性标签进行分类的模型。

640?wx_fmt=png