python统计分析——多解释变量的方差分析

2024-02-26 09:36

本文主要是介绍python统计分析——多解释变量的方差分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:用python动手学统计学

1、导入库

# 导入库
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
# 用于绘图的库
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# 用于估计统计模型的库
import statsmodels.formula.api as smf
import statsmodels.api as sm

2、数据准备

本次数据为准预测销售额的模型,包含湿度、气温、天气(晴或雨)、价格4个解释变量。天气为分类变量,其余为连续变量。

sales=pd.read_csv(r"文件路径")
sales

3、数据可视化展示

        在进行数据分析时,第一步永远是可视化。统计、模型化等工作都要放在后面做。由于及时变量有多个,因此这里绘制散点图矩阵。如下

sns.pairplot(data=sales,hue='weather')

        在矩阵图中,可以看出除了气温湿度有明显的正相关关系外,其他因素间没有明显的关系。

4、多解释变量模型

# 拟合多解释变量的模型
# 在定义多解释变量的模型时,解释变量之间用加号连接
lm_sales=smf.ols("sales~weather+humidity+temperature+price",data=sales).fit()
# 输出估计参数
lm_sales.params

5、模型选择

在typeⅠ ANOVA中,如果改变解释变量的顺序,检验结果会不一样。在方差分析中,解释变量的效应是基于残差量化的,变量个数增加时所减少的残差平方和决定了变量的效应。在多解释变量模型中,变量个数增加时所减少的残差平方和决定了变量的效应大小,在这种情况下变量平方和的值会因其添加的顺序不同而不同,对于解释变量是否存在显著性影响的判断也不同。对多解释变量模型进行type Ⅰ ANOVA可能会导致错误的结论。具体示例请查阅:《用python动手学统计学》一书。

type Ⅱ ANOVA是方差分析的一种,它的结果不会因解释变量顺序的不同而不同。typeⅡ ANOVA 根据解释变量减少时所增加的残差平方和量化解释变量的效应。即使解释变量的顺序不同,这种方法的效果也不会改变。通过这种方法得到的组间偏差平方和就叫作调整平方和。

当解释变量只有一个时,type Ⅰ ANOVA与type Ⅱ ANOVA的结果相等。

6、方差分析

# 输出方差分析表
print(sm.stats.anova_lm(lm_sales,typ=2))

由此方差分析表可知,humidity的p值为0.578,湿度对销售额没有显著影响。

结合前面的可视化作图,可知气温和湿度的相关性很强,因此可能存在这种情况:如果模型中包含了气温,就无法认为湿度会对销售额产生显著影响。下面我们继续对不含湿度的模型进行方差分析。

# 拟合不含湿度的模型
mod_non_humi=smf.ols('sales~weather+temperature+price',data=sales).fit()
#输出方差分析表
print(sm.stats.anova_lm(mod_non_humi,typ=2).round(3))

 由上表可知,目前所有变量都是必要的,至此,变量的选择结束。

系数等结果的解读应该使用变量选择后的模型进行,不应该将通过错误的变量组合进行模型化的结果用于预测或解读。

因此,本例的模型参数如下:

mod_non_humi.params

7、使用AIC进行变量选择

如果使用AIC 进行变量选择,就没有必要像方差分析那样更滑计算方法,直接建模并计算AIC即可。

print('包含所有变量的模型:',lm_sales.aic.round(3))
print('不含湿度的模型:',mod_non_humi.aic.round(3))

不含湿度的模型的AIC更小,所以湿度不应该包含在销售额预测模型中。原则上应该对比所有变量组合的AIC。

使用AIC进行变量选择的过程是比较固定的。它和系数t检验不同,多水平的变量不会导致多重假设检验问题,所得模型的含义永远是“对未知数据的预测误差最小的变量组合”。AIC也没有检验的非对称性问题。不过,与不能过度信任p值类似,我们也不能过度信任AIC,还应该从系数的含义、变量选择的结果、残差等多个方面综合评估模型。

8、多重共线性

在解释变量之间相关性很强时出现的问题就是多重共线性。在本例中,气温与湿度就是相关的,在解读类似模型时需要注意这一点。

多重共线性问题最简单的解决方案就是去掉强相关变量中的一个。多重共线性会对系数的解读造成干扰,我们应该先进行变量选择再解读结果。

在变量选择的过程中有时会使用检验,但如果变量之间强相关(如相关系数接近1),检验所得的p值也会收到干扰。

这篇关于python统计分析——多解释变量的方差分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/748420

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专