多元线性回归之基本假定的验证和处理办法

2023-10-08 15:30

本文主要是介绍多元线性回归之基本假定的验证和处理办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。

 

一 基本假定

(一)误差的假定

1、服从正态分布

      标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服从正态分布;否则,模型存在内生性问题,内生性会破坏参数估计的“一致性”。

      内生性产生的原因有:

          a.测量误差:指的是模型使用的解释变量的数值和真实数据有误差(被解释变量的测量误差不会导致内生性)

          b.遗漏解释变量:现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响,还对某个解释变量有影响,内生性问题就出现了。

         c.互为因果:被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果。

         d.动态面板偏差:动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

2、均值为0

      (待补充

3、等方差假定

      或方差齐性假定,误差有相同(但未知)的方差,如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。产生的原因主要有:

      a.模型中遗漏了某些解释变量

      b.模型函数形式的设定误差

      c.样本数据的测量误差

     d.随机因素的影响

4、相互独立

  (自相关问题)标准的关于模型误差的假设是这样的:第i个误差和第j个误差是不相关的;误差项的相关性暗示这样一种可能性:现在建立的模型还没有将数据中所包含的全部信息表达出来;当观察数据具有自然顺序时(如时间顺序),这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候,应特别关注误差的自相关和季节性效应,同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的:

       a.在时间或空间上,相邻数据的残差趋于相似(又叫纯自相关)

       b.遗漏解释变量,通常,自相关性是由遗漏了与时间相关的变量引起的,即如果被忽略的变量的相继值之间是相关的,那么相应的观测误差之间也会出现相关性,

 

tips:当模型存在异方差或自相关对模型的影响包括:

      a. 回归系数的最小二乘估计是无偏的,但是不再具有最小方差;

      b.方差和回归系数的标准差会被严重低估;即比实际值小很多,从而给出一个假想的精确估计;

      c.置信区间和通常采用的各种显著性检验的结论,严格来说不再是可信的。

(二)预测变量的假定

1、非随机性:预测变量的非随机性,即他们的取值是固定的,在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立,但对结果的解释必须修改,当预测变量是随机变量时,所有推断都是关于观测数据的条件推断。

2、取值没有随机误差:这个假定几乎是不能满足的,测量误差的存在会降低预测的精度,影响误差的方差,负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性,所在在实际分析中,对此类假设不予关注和讨论,但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关:该假定是为了保证最小二乘解的唯一性,若该假定不成立,称为共线性问题

 

二 验证方法

(一)误差的假定的验证

1、误差服从正态分布的检验方法 :

     a.Jarque-Bera统计量;

     b.Kolmogorov-Smirnov检验;

     c.QQ图;

     d.标准化残差关于拟合值的散点图;

2、均值为0验证:无

3、同方差验证(异方差问题)检验方法

      a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成,则没有明显的异方差性;

      b.Goldfeld - Quandt 检验法;

      c.White检验法;

      d.Park检验法;

      e.Gleiser检验法

4、相互独立(自相关性)检验方法

      a.标准化残差的顺序图配合游程检验;

      b.Ljung-Box检验;

      c.Durbin-Watson检验法;

      d.LM检验法;

      e.ADF检验法;

(二)预测变量假定的检验

1、非随机性检验:无

2、取值没有随机误差的检验:无

3、预测变量间假定线性无关(多重共线性问题)的检验

       a.计算模型中各对自变量之间的相关系数,如果存在一个或多个相关系数是显著的,就表示存在多重共线性非问题

       b.当模型的线性关系检验(F检验)显著时,几乎所有的回归系数的t检验却不显著

       b.回归系数的正负号与预期的相反

       d.容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。

三 处理方式

(一)误差假定不满足的处理

1、误差不服从正态分布的处理

      a.使用IV工具变量;

      b.两阶段最小二乘法2SLS 或 Heckman两步法;

      c.GMM或系统GMM(当模型存在异方差时可用);

      d.matching类;

      e.DID;

2、误差不满足均值为0的处理:无

3、异方差问题的处理(《例解回归分析》Samprit Chatterjee   Ali S.Hadi  p121)

      a.变换模型形式;

      b.加权最小二乘法(WLS);

      c.Y的对数变换;

      d.Y的幂次变换;

4、自相关问题的处理

      a.Cochrane-Orcutt,当自相关属于纯自相关可采取此种措施;

      b.引进具有时序效应的新变量,当自相关是由于忽略了某个变量引起的,一旦加入该变量,这种自相关现象自然会消失;有时我们找不到这样的变量,只能试试将原始变量做差分运算。

      c.根据实际情况引入示性变量

      d.引入滞后预测变量上一期或多期的数据

      e.时间序列模型中也可以包含趋势项,数据中具有时间趋势也是常见现象,模型中加入t的函数作为预测变量,实践中,通常加入时间t或t方,即时间的线性项或2次项

      f.在数据处理中,使用目标变量的一阶差分(yt-yt-1)或滞后型变量(yt-a*yt-1)

 

(二)预测变量假定不满足的处理

1、非随机性不满足时的处理:无

2、取值没有随机误差不满足时的处理:无

3、预测变量间假定线性无关假定不满足时的处理

      a.施加约束条件(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p194)

      b.利用主成分的计算(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p192)

      c.搜索模型中回归系数的线性函数(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p195)

      d.主成分回归或岭回归方法替代传统的最小二乘法,岭回归是通过最小二乘法的改进,允许回归系数的有篇估计量存在而补救多重共线性的方法。

      e.偏最小二乘法,偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

      f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计,因此追加样本信息是解决该问题的一条有效途径。

      g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

      h.若要保留所有自变量,则应避免根据t统计量对单个参数进行检验;对因变量y值的推断限定在自变量样本值的范围内。

 

tips:本文内容总结如下表

假设类型基本假设假设的检验方法不满足假设的处理办法
误差的假设正态性假设Jarque-Bera统计量使用IV工具变量
Kolmogorov-Smirnov检验两阶段最小二乘法2SLS或 Heckman两步法
QQ图GMM或系统GMM(当模型存在异方差时可用)
标准化残差关于拟合值的散点图matching类
 DID
0均值假设不展开阐述不展开阐述
等方差假设关于x的标准化残差图检验变换模型形式(《例解回归分析》p121)
Goldfeld - Quandt检验法加权最小二乘法(WLS)(《例解回归分析》p121)
White检验法Y的对数变换
Park检验法Y的幂次变换
Gleiser检验法 
独立性假设标准化残差的顺序图配合游程检验Cochrane-Orcutt
Ljung-Box检验引进具有时序效应的新变量
Durbin-Watson检验法根据实际情况引入示性变量
LM检验法引入滞后预测变量上一期或多期的数据
ADF检验法引入趋势项-t或t方
 引入目标变量的差分或滞后数据
预测变量的假设非随机性假设不展开阐述不展开阐述
无随机误差假设不展开阐述不展开阐述
互相线性无关假设计算x间相关系数施加约束条件(《例解回归分析》p194)
模型线性关系检验(F检验)显著,大多数回归系数t检验不显著利用主成分的计算(《例解回归分析》p192)
回归系数的正负号与预期的相反搜索模型中回归系数的线性函数(《例解回归分析》p195)
容忍度(tolerance)与方差扩大因子(VIF)主成分回归或岭回归
 偏最小二乘法
 增加样本容量
 剔除一个或多个自变量

 

 

 

参考文献

1.多重共线性的判别与解决 http://www.360doc.com/content/20/1023/19/72085106_942042673.shtml

2.内生性问题及其产生原因 https://zhuanlan.zhihu.com/p/110645711

3.内生性问题:起因,类型和解决办法https://zhuanlan.zhihu.com/p/156905895

4.《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

这篇关于多元线性回归之基本假定的验证和处理办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166267

相关文章

MyBatis-Flex BaseMapper的接口基本用法小结

《MyBatis-FlexBaseMapper的接口基本用法小结》本文主要介绍了MyBatis-FlexBaseMapper的接口基本用法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具... 目录MyBATis-Flex简单介绍特性基础方法INSERT① insert② insertSelec

使用C++将处理后的信号保存为PNG和TIFF格式

《使用C++将处理后的信号保存为PNG和TIFF格式》在信号处理领域,我们常常需要将处理结果以图像的形式保存下来,方便后续分析和展示,C++提供了多种库来处理图像数据,本文将介绍如何使用stb_ima... 目录1. PNG格式保存使用stb_imagephp_write库1.1 安装和包含库1.2 代码解

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Spring Boot 整合 ShedLock 处理定时任务重复执行的问题小结

《SpringBoot整合ShedLock处理定时任务重复执行的问题小结》ShedLock是解决分布式系统中定时任务重复执行问题的Java库,通过在数据库中加锁,确保只有一个节点在指定时间执行... 目录前言什么是 ShedLock?ShedLock 的工作原理:定时任务重复执行China编程的问题使用 Shed

Redis如何使用zset处理排行榜和计数问题

《Redis如何使用zset处理排行榜和计数问题》Redis的ZSET数据结构非常适合处理排行榜和计数问题,它可以在高并发的点赞业务中高效地管理点赞的排名,并且由于ZSET的排序特性,可以轻松实现根据... 目录Redis使用zset处理排行榜和计数业务逻辑ZSET 数据结构优化高并发的点赞操作ZSET 结

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

mysql外键创建不成功/失效如何处理

《mysql外键创建不成功/失效如何处理》文章介绍了在MySQL5.5.40版本中,创建带有外键约束的`stu`和`grade`表时遇到的问题,发现`grade`表的`id`字段没有随着`studen... 当前mysql版本:SELECT VERSION();结果为:5.5.40。在复习mysql外键约