理解查全率(precision)与查准率(recall)

本文主要是介绍理解查全率(precision)与查准率(recall)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

理解查全率与查准率

1. 概念解读
2. $F_1$ 度量
3. $F_\beta$ 度量

1. 概念解读

在一个二分类问题中，非对既是错

真实情况\预测情况	positive	negative
True	TP	TN
False	FP	FN

Notice: 上面的图表是个反例，错误的原因是T\F的使用，T代表着预测正确，F代表着预测错误。

真实情况\预测情况	positive	negative
True	TP	FN
False	FP	TN

查全率
$\textrm{precison}=\frac{\mathrm{TP}}{TP+FN}$
查准率
$\textrm{recall}=\frac{\mathrm{TP}}{TP+FP}$

查准率（Precision）就是你认为是对的样例中，到底有多少真是对的。
查全率（Recall）就是所有对的样例，你找出了多少，或者说你判断对了多少。

tip: 我在刚刚接触到这两个概念的时候总是傻傻分不清楚，这里记录一下我现在的看法。如上图数据，横着看表示数据集的正负分布，正集： $\textrm{TP}\cup\textrm{FN}$ ; 负集： $\textrm{FP}\cup\textrm{TN}$ 。首先查全率和查准率的分子都是 $\textrm{TP}$ ，表示所有猜对的正集，查准率针对的是预测集中认为是对的样例，分母是 $T P + F P$ ；查全率针对的是所有正确的样例，分母是 $T P + F N$ 。

这里有一个问题：：查准率和查全率是一对矛盾的度量。一般来说查准率高时，查全率往往偏低；反之同理。可是为什么就不能两个都高呢？
引用西瓜书上面的回答：

若希望将好瓜尽可能多的选出来，则可通过增加选瓜的数量来实现，如果将所有的西瓜都选上，那么所有的好瓜也必然都被选上了，但这样查准率就会较低，通常只有简单的问题，才会使查全率和查准率都很高。

2. $F_1$ 度量

$F_1$ 度量是基于查全率与查准率的调和平均(harmonic mean)。
定义为：
$\frac{1}{F_1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$
$F_1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{2\times TP+FP+FN}$