本文主要是介绍3、部分图 Partial Plots,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
每个特征如何影响您的预测?
文章目录
- 1、部分依赖图
- 2、工作原理
- 3、代码示例
- 4、2D 部分依赖图
1、部分依赖图
特征重要性显示哪些变量最影响预测,而部分依赖图显示一个特征如何影响预测。
这对回答以下问题非常有用:
- 在控制所有其他房屋特征的情况下,经度和纬度对房价有什么影响?换句话说,相似大小的房屋在不同区域的定价会有何不同?
- 两个群体之间的预测健康差异是由其饮食差异引起的,还是由其他因素引起的?
如果你对线性回归或逻辑回归比较熟悉的话,部分依赖图起到的效果跟这些模型里面的参数差不多。但是,与简单模型中的参数相比,复杂模型上的依赖图可以捕捉到更复杂的模式。我们将展示一些例子,解释这些图的解释,并回顾创建这些图的代码。
2、工作原理
与排列重要性类似,偏依赖图是在模型拟合后计算的。 模型是在真实数据上拟合的,这些数据在任何方面都没有被人为操纵过。
在我们的足球示例中,球队可能在许多方面有所不同。例如,他们传球的次数,射门的次数,进球的次数等。乍一看,似乎很难分离这些特征的影响。
为了了解偏依赖图如何将每个特征的效果分离出来,我们首先考虑单行数据。例如,该数据行可能表示一支球队在比赛中占据球权50%的时间,传球100次,射门10次,进球1次。
我们将使用拟合的模型来预测我们的结果(球员是否获得“本场最佳”),但是我们反复改变一个变量的值以进行一系列预测。我们可以预测球队只占据40%的比赛时间的结果。然后预测球队占据50%的比赛时间的结果。然后再预测占据60%的比赛时间的结果,依此类推。我们沿着小球权值到大球权值的方向描绘出预测结果(在纵轴上),从而观察其变化(在横轴上)。
在这个描述中,我们仅使用了单行数据。特征之间的相互作用可能导致单行的图表是非典型的。因此,我们用来自原始数据集的多个行进行多次实验,并在纵轴上绘制平均预测结果。
3、代码示例
在这里,重点不是建模过程,所以在下面的代码中,不会有过多数据探索和建模的内容。
In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifierdata = pd
这篇关于3、部分图 Partial Plots的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!