（机器学习）如何评价回归模型？——Adjusted R-Square（校正决定系数）

本文主要是介绍（机器学习）如何评价回归模型？——Adjusted R-Square（校正决定系数），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在分类模型中，评价输出相对简单，有“错误率”、“混淆矩阵（confusion matrix）”、“正确率（precision）”、“召回率（recall）”、ROC曲线等等。但回归模型怎样评价呢？

在一个回归预测结束后得到一串预测结果Y_predict。另有真实结果Y_actual。有如下值评价：

1、SSE（误差平方和）

这里写图片描述

如果用这个，你会得到一个巨大的数，比如好几万多，你也不知道它代表什么，就知道误差很大。其实不一定，因为随着样本数增加，这个误差平方和必然跟着增大。这个数什么也不代表，除非是对比，比如两个或多个回归模型放一起比较，谁的误差平方和越小，则误差越小，则这个模型表现越好。

另外，标准线性回归模型的原理就是，通过计算使误差平方和最小。所以用它来表示误差理所应当。

（《机器学习实战》第八章P145的rssError函数即是算误差平方和，并以此评价模型效果。）
另外，有个神奇、类似但并不是的例子和此相关，那就是sklearn.cluster.KMeans的score方法（这个就不是回归了）是把x中的每个value减去同意分类中的所在维度的平均值的平均值后做平方，再把这些平方们做加和。（说它神奇是因为score(x,y)的y根本没用。）

2、R-Square（决定系数)

（此部分原回答存在错误，已整体重写，感谢评论区！）

2.1、定义

此处的R即相关系数，相关系数的平方就是决定系数R-Square。其中分母的y_mean是y_actual的mean。

（此处的R即相关系数，相关系数的平方就是决定系数R-Square。其中分母的y_mean是y_actual的mean。）

2.2、理解

第一种解释：
分子是残差的平方之和；分母是总方差；把“1减”揉进分式后，变成了“（总方差 - 残差平方和）/ 总方差 ”。
所以，R-Square理解成 “预测的误差的方差”小于实际情况的方差的比例。译自：What’s a good value for R-squared?
第二种解释：
用1减去y对回归模型的方差（未解释离差）与y的总方差的比值，y_actual - y_predict 也就是残差，是拟合方程中不能解释的部分，用1减去不能解释的部分，那么剩下的就是解释的部分，也就是说自变量解释了因变量变动的百分比的多少。摘自：Miss鱼

二种解释统一为：R-Square 表示该模型能够拟合的“变化程度”，占真实数据的“变化程度”的比例。

2.3、越大越好？

R-Square的取值范围是“负无穷到1”，经常是“0到1”。（很多资料说是0~1是不准确的，有预测错误巨大导致y_predict巨大，从而分子巨大，R-Square
远小于0的情况。）
一般认为， R-Square越大越好。因为最佳情况下，分子（残差的平方）为0，R-Square等于1。（注意要是真的接近1，小心过拟合啊，谢谢评论区提醒。）
但需要注意，和sse一样，只能说不同的模型能在相同测试集上，R-Square越大的模型就越好；如果不同的模型在不同的测试集上，得到两个R-Square，（严格意义上）是不能说“越大越好”的，但毕竟能做大概的比较。（R-Square不香吗？也香，也香~~）

2.4、作用

它的作用是，把“误差平方和”这个好几万的数，变成 R-Square这个（一般来说）0~1的数，还能在只有这一套样本一个模型的情况下，知道预测结果大概准不准，大概有多准。

之所以说“大概有多准”，是因为随着“样本数”增加（立个flag，下文会提到），R-Square大多会变化，无法真正定量说明准确程度，只能大概定量。

3、Adjusted R-Square（校正决定系数）

3.1、定义

这里写图片描述

其中，n为样本数量，p为特征数量。即样本为n个[ x1, x2, x3, … , xp, y ]。

3.2、理解

这个式子其实就是将R-Square式子中那个 “一堆除以一堆” 乘以 “一个稍大于1的数” 再被1减。样本数量（接上文flag）会影响“一个稍大于1的数”，故而抵消样本数量对R-Square的影响。

3.3、越大越好？

取值范围还是负无穷到1，大多是 0~1，且越大越好。（注意要是真的接近1，小心过拟合啊，谢谢评论区提醒。）

3.4、作用

如3.2所说，就是抵消样本数量对R-Square的影响，从而更能用一个0~1的数字描述回归模型的拟合情况好坏。
（虽说依然有2.3最后说的情况，但毕竟有了一个描述和比较的标准。Adjusted R-Square 不香吗？更香，更香~~）

自己造个轮子，在python的numpy下求Adjusted R-Square（校正决定系数）的函数：

import numpy as npdef score(a,b,dimension):		
# a is predict, b is actual. dimension is len(train[0]).aa=a.copy(); bb=b.copy()if len(aa)!=len(bb):print('not same length')return np.nancc=aa-bbwcpfh=sum(cc**2)# RR means R_SquareRR=1-sum((bb-aa)**2)/sum((bb-np.mean(bb))**2)n=len(aa); p=dimensionAdjust_RR=1-(1-RR)*(n-1)/(n-p-1)# Adjust_RR means Adjust_R_Squarereturn Adjust_RR

经测试，这个函数的结果和sklearn里的score函数结果极为接近（误差千分之一）。说明那个也是用的同样原理，估计是部分参数略微不同。

真心是本人原创。欢迎转载，请链接注明出处。若有帮助请点赞！

这篇关于（机器学习）如何评价回归模型？——Adjusted R-Square（校正决定系数）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！