多元线性回归之基本假定的验证和处理办法

2023-10-08 15:30

本文主要是介绍多元线性回归之基本假定的验证和处理办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。

 

一 基本假定

(一)误差的假定

1、服从正态分布

      标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服从正态分布;否则,模型存在内生性问题,内生性会破坏参数估计的“一致性”。

      内生性产生的原因有:

          a.测量误差:指的是模型使用的解释变量的数值和真实数据有误差(被解释变量的测量误差不会导致内生性)

          b.遗漏解释变量:现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响,还对某个解释变量有影响,内生性问题就出现了。

         c.互为因果:被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果。

         d.动态面板偏差:动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

2、均值为0

      (待补充

3、等方差假定

      或方差齐性假定,误差有相同(但未知)的方差,如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。产生的原因主要有:

      a.模型中遗漏了某些解释变量

      b.模型函数形式的设定误差

      c.样本数据的测量误差

     d.随机因素的影响

4、相互独立

  (自相关问题)标准的关于模型误差的假设是这样的:第i个误差和第j个误差是不相关的;误差项的相关性暗示这样一种可能性:现在建立的模型还没有将数据中所包含的全部信息表达出来;当观察数据具有自然顺序时(如时间顺序),这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候,应特别关注误差的自相关和季节性效应,同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的:

       a.在时间或空间上,相邻数据的残差趋于相似(又叫纯自相关)

       b.遗漏解释变量,通常,自相关性是由遗漏了与时间相关的变量引起的,即如果被忽略的变量的相继值之间是相关的,那么相应的观测误差之间也会出现相关性,

 

tips:当模型存在异方差或自相关对模型的影响包括:

      a. 回归系数的最小二乘估计是无偏的,但是不再具有最小方差;

      b.方差和回归系数的标准差会被严重低估;即比实际值小很多,从而给出一个假想的精确估计;

      c.置信区间和通常采用的各种显著性检验的结论,严格来说不再是可信的。

(二)预测变量的假定

1、非随机性:预测变量的非随机性,即他们的取值是固定的,在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立,但对结果的解释必须修改,当预测变量是随机变量时,所有推断都是关于观测数据的条件推断。

2、取值没有随机误差:这个假定几乎是不能满足的,测量误差的存在会降低预测的精度,影响误差的方差,负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性,所在在实际分析中,对此类假设不予关注和讨论,但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关:该假定是为了保证最小二乘解的唯一性,若该假定不成立,称为共线性问题

 

二 验证方法

(一)误差的假定的验证

1、误差服从正态分布的检验方法 :

     a.Jarque-Bera统计量;

     b.Kolmogorov-Smirnov检验;

     c.QQ图;

     d.标准化残差关于拟合值的散点图;

2、均值为0验证:无

3、同方差验证(异方差问题)检验方法

      a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成,则没有明显的异方差性;

      b.Goldfeld - Quandt 检验法;

      c.White检验法;

      d.Park检验法;

      e.Gleiser检验法

4、相互独立(自相关性)检验方法

      a.标准化残差的顺序图配合游程检验;

      b.Ljung-Box检验;

      c.Durbin-Watson检验法;

      d.LM检验法;

      e.ADF检验法;

(二)预测变量假定的检验

1、非随机性检验:无

2、取值没有随机误差的检验:无

3、预测变量间假定线性无关(多重共线性问题)的检验

       a.计算模型中各对自变量之间的相关系数,如果存在一个或多个相关系数是显著的,就表示存在多重共线性非问题

       b.当模型的线性关系检验(F检验)显著时,几乎所有的回归系数的t检验却不显著

       b.回归系数的正负号与预期的相反

       d.容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。

三 处理方式

(一)误差假定不满足的处理

1、误差不服从正态分布的处理

      a.使用IV工具变量;

      b.两阶段最小二乘法2SLS 或 Heckman两步法;

      c.GMM或系统GMM(当模型存在异方差时可用);

      d.matching类;

      e.DID;

2、误差不满足均值为0的处理:无

3、异方差问题的处理(《例解回归分析》Samprit Chatterjee   Ali S.Hadi  p121)

      a.变换模型形式;

      b.加权最小二乘法(WLS);

      c.Y的对数变换;

      d.Y的幂次变换;

4、自相关问题的处理

      a.Cochrane-Orcutt,当自相关属于纯自相关可采取此种措施;

      b.引进具有时序效应的新变量,当自相关是由于忽略了某个变量引起的,一旦加入该变量,这种自相关现象自然会消失;有时我们找不到这样的变量,只能试试将原始变量做差分运算。

      c.根据实际情况引入示性变量

      d.引入滞后预测变量上一期或多期的数据

      e.时间序列模型中也可以包含趋势项,数据中具有时间趋势也是常见现象,模型中加入t的函数作为预测变量,实践中,通常加入时间t或t方,即时间的线性项或2次项

      f.在数据处理中,使用目标变量的一阶差分(yt-yt-1)或滞后型变量(yt-a*yt-1)

 

(二)预测变量假定不满足的处理

1、非随机性不满足时的处理:无

2、取值没有随机误差不满足时的处理:无

3、预测变量间假定线性无关假定不满足时的处理

      a.施加约束条件(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p194)

      b.利用主成分的计算(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p192)

      c.搜索模型中回归系数的线性函数(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p195)

      d.主成分回归或岭回归方法替代传统的最小二乘法,岭回归是通过最小二乘法的改进,允许回归系数的有篇估计量存在而补救多重共线性的方法。

      e.偏最小二乘法,偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

      f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计,因此追加样本信息是解决该问题的一条有效途径。

      g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

      h.若要保留所有自变量,则应避免根据t统计量对单个参数进行检验;对因变量y值的推断限定在自变量样本值的范围内。

 

tips:本文内容总结如下表

假设类型基本假设假设的检验方法不满足假设的处理办法
误差的假设正态性假设Jarque-Bera统计量使用IV工具变量
Kolmogorov-Smirnov检验两阶段最小二乘法2SLS或 Heckman两步法
QQ图GMM或系统GMM(当模型存在异方差时可用)
标准化残差关于拟合值的散点图matching类
 DID
0均值假设不展开阐述不展开阐述
等方差假设关于x的标准化残差图检验变换模型形式(《例解回归分析》p121)
Goldfeld - Quandt检验法加权最小二乘法(WLS)(《例解回归分析》p121)
White检验法Y的对数变换
Park检验法Y的幂次变换
Gleiser检验法 
独立性假设标准化残差的顺序图配合游程检验Cochrane-Orcutt
Ljung-Box检验引进具有时序效应的新变量
Durbin-Watson检验法根据实际情况引入示性变量
LM检验法引入滞后预测变量上一期或多期的数据
ADF检验法引入趋势项-t或t方
 引入目标变量的差分或滞后数据
预测变量的假设非随机性假设不展开阐述不展开阐述
无随机误差假设不展开阐述不展开阐述
互相线性无关假设计算x间相关系数施加约束条件(《例解回归分析》p194)
模型线性关系检验(F检验)显著,大多数回归系数t检验不显著利用主成分的计算(《例解回归分析》p192)
回归系数的正负号与预期的相反搜索模型中回归系数的线性函数(《例解回归分析》p195)
容忍度(tolerance)与方差扩大因子(VIF)主成分回归或岭回归
 偏最小二乘法
 增加样本容量
 剔除一个或多个自变量

 

 

 

参考文献

1.多重共线性的判别与解决 http://www.360doc.com/content/20/1023/19/72085106_942042673.shtml

2.内生性问题及其产生原因 https://zhuanlan.zhihu.com/p/110645711

3.内生性问题:起因,类型和解决办法https://zhuanlan.zhihu.com/p/156905895

4.《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

这篇关于多元线性回归之基本假定的验证和处理办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166267

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

Springboot处理跨域的实现方式(附Demo)

《Springboot处理跨域的实现方式(附Demo)》:本文主要介绍Springboot处理跨域的实现方式(附Demo),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录Springboot处理跨域的方式1. 基本知识2. @CrossOrigin3. 全局跨域设置4.

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

SpringBoot整合MybatisPlus的基本应用指南

《SpringBoot整合MybatisPlus的基本应用指南》MyBatis-Plus,简称MP,是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,下面小编就来和大家介绍一下... 目录一、MyBATisPlus简介二、SpringBoot整合MybatisPlus1、创建数据库和