本文主要是介绍分类模型常用评价指标——混淆矩阵和roc曲线,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
混淆矩阵
定量精度
- 总体分类精度(Overall Accuracy)
分类正确的样本数/总样本数
OA=(e+f+g)/(a+b+c+d+e+f+g+h+i) - Kappa系数
P0=OA
Pe=∑(真实样本数×分类样本数)/样本总数2
例如:Pe=[(a+b+c)×(a+d+g)+(b+e+h)×(d+e+f)+(g+h+i)×(c+f+i)] /(a+b+c+d+e+f+g+h+i)2
Kappa=(P0-Pe )/(1-Pe) - 用户精度(User accuracy )
从预测的角度出发,预测正确的样本占该类别总的预测样本数- 类别1user_accuracy=a/(a+d+g)
- 类别2user_accuracy=e/(b+e+h)
- 类别3user_accuracy=i/(c+f+i)
- 生产者精度(Producer accuracy)
用样本的角度出发,被正确预测的样本数占该类别的样本总数- 类别1Prod.accuracy=a/(a+b+c)
- 类别2Prod.accuracy=e/(d+e+f)
- 类别3Prod.accuracy=i/(g+h+i)
ROC曲线
roc曲线主要用来评估二分类模型的精度
a:TP(真阳性)
c:FP(假阳性)
b:FN(假阳性)
d:TN(真阴性)
- 真检率(灵敏度,击中率)
TPR=a/(a+b) - 误检率(特异度,虚惊率)
FPR=c/(c+d)
ROC曲线的坐标横轴是FPR,坐标纵轴是TPR,ROC曲线描述的不是FPR与TPR间的函数关系
ROC曲线描述的不是FPR与TPR间的函数关系,FPR与TPR间没有函数关系,FPR与TPR是阈值τ的函数,τ描述的是样本中被检测为阳性的比率,当τ=0时,所有样本被识别为阴性,此时FPR(特异度、虚惊率、误检率)为0(FPR越小越好),但TPR(灵敏度、命中率、真检率)为0(TPR越大越好),当τ=1时所有样本被识别为阳性,此时TPR=1,FPR=1。因此需要选择一个合适的τ值使得TPR越大越好,FPR越小越好。
曲线下面积(Area Under Curve,AUC)
AUC等于roc曲线与坐标横轴围城的面积,是roc曲线的积分,AUC数值越大越好
这篇关于分类模型常用评价指标——混淆矩阵和roc曲线的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!