本文主要是介绍皮尔逊系数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
皮尔逊系数
测量列之间的线性关系,该系数在-1,1变化,0代表没有线性关系
要求:每列是正态分布的,在很大的程度上,可以忽略这个要求,因为数据集很大
import seaborn as sns
import matplotlib.style as style
#自动选择最相关的特征进行展示,不过我们关注的是特征与响应变量之间的相关性
style.use('fivethirtyeight')
sns.heatmap(df.corr())
#用代码隔离特征与响应变量之间的相关性
df.corr()['target']
#只留下相关系数超过正负0.7的特征
df.corr()['target'].abs()>0.7
#存储特征
highly_correlated_features=df.columns[df.corr()['target'].abs()>0.7]
highly_correlated_features
#删掉响应变量
highly_correlated_features=highly_correlated_features.drop('target')
highly_correlated_featuresX_subsetted=df[highly_correlated_features]
get_best_model_and_accuracy(d_tree,tree_params,X_subsetted,df['target'])
这篇关于皮尔逊系数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!