R语言统计分析——线性模型假设的综合验证与多重共线性

本文主要是介绍R语言统计分析——线性模型假设的综合验证与多重共线性，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考资料：R语言实战【第2版】

1、线性模型假设的综合验证

gvlma包中的gvlma()函数，能对线性模型进行综合验真，同时还能做偏斜度、峰度和异方差性的评价。也就是说，它给模型提供了一个单独的综合验证（通过/不通过）。

# 加载gvlma包
library(gvlma)
# 获取数据
states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])
# 拟合多元线性模型
fit<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)
# gvlma综合验证
gvlma(fit)

结果显示：Global stat 的p值为0.597，即数据满足OLS（普通最小二乘法）回归模型所有的统计假设。如果Global stat 的p值小于0.05，我们则需要对数据进行逐项排查与验证（正态性、误差独立性、线性、同方差性等）

2、多重共线性

假设我们正在进行一项握力研究，自变量包括DOB（ Date Of Birth，出生日期）和年龄。我们用握力对DOB和年龄进行回归， F检验显著， p<0.001。但是当我们观察DOB和年龄的回归系数时，却发现它们都不显著（也就是说无法证明它们与握力相关）。到底发生了什么呢？

原因是DOB与年龄在四舍五入后相关性极大。回归系数测量的是当其他预测变量不变时，某
个预测变量对响应变量的影响。那么此处就相当于假定年龄不变，然后测量握力与年龄的关系，这种问题就称作多重共线性（ multicollinearity）。它会导致模型参数的置信区间过大，使单个系数解释起来很困难。

多重共线性可用统计量VIF（Variance Inflation Factor，方差膨胀因子）进行检验。VIF的平方根表示变量回归参数的置信区间能膨胀为与模型无关的预测变量的程度（因此而得名）。car包中的vif()函数提供了VIF值。一般原则下，VIF>4就表示存在多重共线性。

# 加载car包
library(car)
vif(fit)
vif(fit)>4

结果显示，自变量见不存在多重共线性。

这篇关于R语言统计分析——线性模型假设的综合验证与多重共线性的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

R语言统计分析——线性模型假设的综合验证与多重共线性

相关文章

Linux内核参数配置与验证详细指南

Go 语言中的select语句详解及工作原理

C语言函数递归实际应用举例详解

Spring Security基于数据库的ABAC属性权限模型实战开发教程

opencv图像处理之指纹验证的实现

Java的IO模型、Netty原理解析

基于Flask框架添加多个AI模型的API并进行交互

C语言中的数据类型强制转换

利用Go语言开发文件操作工具轻松处理所有文件

C语言实现两个变量值交换的三种方式