百面算法工程师 | 模型评价指标及优化策略

本文主要是介绍百面算法工程师 | 模型评价指标及优化策略，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文给大家带来的百面算法工程师是深度学习模型评价指标的面试总结，文章内总结了常见的提问问题，旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中，我们还将介绍一些常见的评价方案，并提供参考的回答及其理论基础，以帮助求职者更好地准备面试。通过对这些问题的理解和回答，求职者可以展现出自己的算法语法领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时，这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战，提升面试的成功率和竞争力。

16.1 回归模型评估常用的方法

16.2 混淆矩阵

16.3 查准率，查全率，F1-score，准确率

16.4 PR曲线图

16.5 AP与mAP

欢迎大家订阅我的专栏一起学习共同进步

祝大家早日拿到offer！ let's go

🚀🚀🚀http://t.csdnimg.cn/dfcH3🚀🚀🚀

16.1 回归模型评估常用的方法

指标	描述
Mean Square Error (MSE, RMSE)	平均方差
Absolute Error (MAE, RAE)	绝对误差
R-Squared	R平方值

16.2 混淆矩阵

混淆矩阵是用于评估分类模型性能的一种表格形式。它将模型的预测结果与真实标签进行比较，并将它们分类为四种不同的情况：真正例 (True Positive, TP)、真负例 (True Negative, TN)、假正例 (False Positive, FP) 和假负例 (False Negative, FN)。

在混淆矩阵中，行表示实际类别，列表示预测类别。这个矩阵的一个简单示例是：

	Predicted Negative	Predicted Positive
Actual Negative	TN	FP
Actual Positive	FN	TP

其中：

TP（真正例）：模型正确地将猫标记为猫的数量。例如，图像中确实有一只猫，而模型也成功地将其检测为猫。
TN（真负例）：模型正确地将非猫标记为非猫的数量。例如，图像中没有猫，而模型也正确地将其识别为非猫【其他类别】。
FP（假正例）：模型错误地将非猫标记为猫的数量。例如，图像中没有猫，但模型错误地将一只狗误判为猫。
FN（假负例）：模型错误地将猫标记为非猫的数量。例如，图像中有一只猫，但模型未能将其识别为猫。

混淆矩阵提供了对模型性能的全面评估，可以从中计算出各种性能指标，如准确率、召回率、精确率和F1分数等

16.3 查准率，查全率，F1-score，准确率

下面是性能指标及其作用的表格形式：

Metric	Formula	Purpose
准确率 (Accuracy)	$\frac{TP + TN}{TP + TN + FP + FN}$	准确率是指模型正确预测的样本数量与总样本数量之比。
精确率 (Precision)	$\frac{TP}{TP + FP}$	评估模型在预测为正例的样本中的准确程度
召回率 (Recall)	$\frac{TP}{TP + FN}$	评估模型对正例的预测能力
F1 分数 (F1 Score)	$\frac{2 \times Precision \times Recall}{Precision + Recall}$	综合考虑精确率和召回率的调和平均值，综合评估模型的性能

1. 准确率（Accuracy）：准确率是指模型正确预测的样本数量占总样本数量的比例。

举例：在100张图像中，模型正确地识别了80张图像中的对象，那么准确率为80%。

2. 查准率（Precision）：查准率是指模型预测为正例的样本中，真正为正例的样本数量占所有预测为正例的样本数量的比例。

举例：模型预测了20张图像中有猫，但实际上只有15张图像中确实有猫，那么查准率为15/20 = 0.75。

3. 查全率（Recall）：查全率是指模型正确预测为正例的样本数量占所有真正为正例的样本数量的比例。

举例：在100张图像中有50张图像中确实有猫，而模型成功地识别了其中的40张，那么查全率为40/50 = 0.8。

4. F1-Score：F1-Score是查准率和查全率的调和平均值，它综合了查准率和查全率的性能。

举例：如果一个模型的查准率为0.75，查全率为0.8，那么F1-Score为2 * (0.75 * 0.8) / (0.75 + 0.8) = 0.774。

16.4 PR曲线图

在根据测试集数据评估模型时，得到各特征线性组合后的置信度得分，当确定某阈值后，若得分小于阈值则判为负类，否则为正类，计算出此时的Precision和Recall结果并保存。将阈值从大往小调整得到不同阈值下的Precision和Recall，然后以Recall为横坐标，Precision为纵坐标绘制出P-R曲线图。如果检测器的Precision随着Recall的提升而保持较高，也就是说当改变阈值，Precision和Recall仍然很高，则表示性能较优。

PR曲线的横坐标是精确率P，纵坐标是召回率R。评价标准和ROC一样，先看是否平滑。一般来说，在同一测试集，上面的比下面的好。当P和R的值接近时，F1值最大，此时画连接(0,0)和(1,1)的线，线和PRC重合的地方的F1是这条线最大的F1，此时的F1对于PRC就好像AUC对于ROC一样。一个数字比一条线更方便调型。