机器学习笔记（一）ROC与AUC的定义与概念

本文主要是介绍机器学习笔记（一）ROC与AUC的定义与概念，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

综述

ROC综述为“受试者工作特征”（Receiver Operation Characteristic），其对于组织分类器和将分类器的性能可视化十分有用。
它最先由二战的电子工程师发明，用于侦测战场上的敌军载具，是信号检测理论的重要组成部分，最近经常用于机器学习和数据挖掘研究，可以用于：（1）选择最优的分类模型（2）在模型中设置最佳阈值

二分类常用公式

首先我们给出真阳性（true positive）、假阳性（false positive）、真阴性（true negative）和假阴性（false negative）的定义：

真实结果↓预测结果→	正例	反例
正例	TP（真阳性）	FN（假阴性）
反例	FP（假阳性）	TN（真阴性）

若为二元分类模型，则两类分别对应阳性和阴性；若是连续值则我们需要设置一个阈值，通过与这一个阈值比较来确定阴阳性。
我们定义真阳性率 $T P R$ 和伪阳性率 $F P R$ 如下：

$\large{TPR = \frac{TP}{P} = \frac{TP}{TP + FN}}$

$\large{FPR = \frac{FP}{N} = \frac{FP}{FP + TN}}$

类似，我们还有以下：

准确率 $\large{ACC = \frac{TP + TN}{P + N}}$

真阴性率 $\large{\frac{TN}{FP+TN}}$

阴性预测值 $\large{NPV=\frac{TN}{TN+FN}}$

阳性预测值 $\large{PPV=\frac{TP}{TP+FR}}$

假发现率 $\large{FDR=\frac{FP}{FP+TP}}$

ROC曲线绘制

我们以 $T P R$ （真阳性率）和 $F P R$ （伪阴性率）为纵轴和横轴，绘制ROC曲线：
ROC
若我们的样例数是有限的，则我们可以通过以下步骤绘制近似ROC图：
我们设前一个标记点坐标为 $(x, y)$ ，若当前为真阳性（ $T P$ ），则当前坐标为 $y+\frac{1}{m^+})$ ，若当前为伪阳性（ $F P$ ），则当前坐标为 $(x+\frac{1}{m^-}, y)$