Python统计实战:一题搞定多元线性回归、共线性、相对重要性分析

本文主要是介绍Python统计实战:一题搞定多元线性回归、共线性、相对重要性分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能,从而更快地掌握解决问题所需的能力。

(以下练习题来源于《统计学—基于Python》。联系获取完整数据和Python源代码文件。)


练习题

为了分析影响不良贷款的因素,一家商业银行在所属的多家分行中随机抽取25家,得到的不良贷款、贷款余额、应收贷款、贷款项目个数、固定资产投资等有关数据如下(前3行和后3行)。

不良贷款贷款余额应收贷款贷款项目个数固定资产投资
0.967.36.8551.9
1.1111.319.81690.9
4.81737.71773.7
...............
1.2109.610.31467.9
7.2196.215.81639.7
3.2102.2121097.1

(1)用不良贷款作为因变量,建立多元线性回归模型。

(2)分析模型中是否存在共线性。

(3)比较4个自变量在不良贷款中的相对重要性。


计算结果与分析

(1)用不良贷款作为因变量,建立多元回归模型,结果如下图所示。

# 拟合多元线性回归模型
from statsmodels.formula.api import ols
import pandas as pd
df = pd.read_csv('exercise10_3.csv')model_m = ols('不良贷款 ~ 贷款余额+应收贷款+贷款项目个数+固定资产投资', data = df).fit()
print(model_m.summary())

(2)计算VIF与容忍度判断分析模型中是否存在共线性。计算结果如下,VIF和容忍度显示,共线性均在可接受的范围内。

import pandas as pd
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor# 读取数据
df = pd.read_csv('exercise10_3.csv')# 选择自变量列
X = df[['贷款余额', '应收贷款', '贷款项目个数', '固定资产投资']]# 添加常数项
X = sm.add_constant(X)# 计算VIF
vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]# 计算容忍度
vif_data["tolerance"] = 1 / vif_data["VIF"]print(vif_data)

(3)计算标准化回归系数,比较 4 个自变量在不良贷款中的相对重要性。结果如下图所示。按标准化回归系数的绝对值大小排序为贷款余额最大,其次是固定资产投资、应收贷款和贷款项目个数。因此,在4个自变量中,贷款余额是影响不良贷款最重要的变量。

# 计算标准化回归系数,比较 4 个自变量在不良贷款中的相对重要性
import pandas as pd
from statsmodels.formula.api import ols
from scipy import stats
df = pd.read_csv('exercise10_3.csv')z = stats.zscore(df, ddof = 1)  # 数据框标准化
df_z = pd.DataFrame(z, columns = ['不良贷款', '贷款余额', '应收贷款', '贷款项目个数', '固定资产投资']) # 将数组转换成数据框并重新命名为df
model_z = ols('不良贷款 ~ 贷款余额+应收贷款+贷款项目个数+固定资产投资', data = df_z).fit()
print(model_z.summary())

都读到这里了,不妨关注、点赞一下吧!

这篇关于Python统计实战:一题搞定多元线性回归、共线性、相对重要性分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1085552

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

Python 字符串占位

在Python中,可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法 百分号操作符 % name = "张三"age = 20message = "我叫%s,今年%d岁。" % (name, age)print(message) # 我叫张三,今年20岁。 str.format() 方法 name = "张三"age

React+TS前台项目实战(十七)-- 全局常用组件Dropdown封装

文章目录 前言Dropdown组件1. 功能分析2. 代码+详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲全局Dropdown组件封装,可根据UI设计师要求自定义修改。 Dropdown组件 1. 功能分析 (1)通过position属性,可以控制下拉选项的位置 (2)通过传入width属性, 可以自定义下拉选项的宽度 (3)通过传入classN

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

python 喷泉码

因为要完成毕业设计,毕业设计做的是数据分发与传输的东西。在网络中数据容易丢失,所以我用fountain code做所发送数据包的数据恢复。fountain code属于有限域编码的一部分,有很广泛的应用。 我们日常生活中使用的二维码,就用到foutain code做数据恢复。你遮住二维码的四分之一,用手机的相机也照样能识别。你遮住的四分之一就相当于丢失的数据包。 为了实现并理解foutain

python 点滴学

1 python 里面tuple是无法改变的 tuple = (1,),计算tuple里面只有一个元素,也要加上逗号 2  1 毕业论文改 2 leetcode第一题做出来

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言