多元线性回归之基本假定的验证和处理办法

2023-10-08 15:30

本文主要是介绍多元线性回归之基本假定的验证和处理办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。

 

一 基本假定

(一)误差的假定

1、服从正态分布

      标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服从正态分布;否则,模型存在内生性问题,内生性会破坏参数估计的“一致性”。

      内生性产生的原因有:

          a.测量误差:指的是模型使用的解释变量的数值和真实数据有误差(被解释变量的测量误差不会导致内生性)

          b.遗漏解释变量:现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响,还对某个解释变量有影响,内生性问题就出现了。

         c.互为因果:被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果。

         d.动态面板偏差:动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

2、均值为0

      (待补充

3、等方差假定

      或方差齐性假定,误差有相同(但未知)的方差,如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。产生的原因主要有:

      a.模型中遗漏了某些解释变量

      b.模型函数形式的设定误差

      c.样本数据的测量误差

     d.随机因素的影响

4、相互独立

  (自相关问题)标准的关于模型误差的假设是这样的:第i个误差和第j个误差是不相关的;误差项的相关性暗示这样一种可能性:现在建立的模型还没有将数据中所包含的全部信息表达出来;当观察数据具有自然顺序时(如时间顺序),这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候,应特别关注误差的自相关和季节性效应,同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的:

       a.在时间或空间上,相邻数据的残差趋于相似(又叫纯自相关)

       b.遗漏解释变量,通常,自相关性是由遗漏了与时间相关的变量引起的,即如果被忽略的变量的相继值之间是相关的,那么相应的观测误差之间也会出现相关性,

 

tips:当模型存在异方差或自相关对模型的影响包括:

      a. 回归系数的最小二乘估计是无偏的,但是不再具有最小方差;

      b.方差和回归系数的标准差会被严重低估;即比实际值小很多,从而给出一个假想的精确估计;

      c.置信区间和通常采用的各种显著性检验的结论,严格来说不再是可信的。

(二)预测变量的假定

1、非随机性:预测变量的非随机性,即他们的取值是固定的,在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立,但对结果的解释必须修改,当预测变量是随机变量时,所有推断都是关于观测数据的条件推断。

2、取值没有随机误差:这个假定几乎是不能满足的,测量误差的存在会降低预测的精度,影响误差的方差,负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性,所在在实际分析中,对此类假设不予关注和讨论,但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关:该假定是为了保证最小二乘解的唯一性,若该假定不成立,称为共线性问题

 

二 验证方法

(一)误差的假定的验证

1、误差服从正态分布的检验方法 :

     a.Jarque-Bera统计量;

     b.Kolmogorov-Smirnov检验;

     c.QQ图;

     d.标准化残差关于拟合值的散点图;

2、均值为0验证:无

3、同方差验证(异方差问题)检验方法

      a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成,则没有明显的异方差性;

      b.Goldfeld - Quandt 检验法;

      c.White检验法;

      d.Park检验法;

      e.Gleiser检验法

4、相互独立(自相关性)检验方法

      a.标准化残差的顺序图配合游程检验;

      b.Ljung-Box检验;

      c.Durbin-Watson检验法;

      d.LM检验法;

      e.ADF检验法;

(二)预测变量假定的检验

1、非随机性检验:无

2、取值没有随机误差的检验:无

3、预测变量间假定线性无关(多重共线性问题)的检验

       a.计算模型中各对自变量之间的相关系数,如果存在一个或多个相关系数是显著的,就表示存在多重共线性非问题

       b.当模型的线性关系检验(F检验)显著时,几乎所有的回归系数的t检验却不显著

       b.回归系数的正负号与预期的相反

       d.容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。

三 处理方式

(一)误差假定不满足的处理

1、误差不服从正态分布的处理

      a.使用IV工具变量;

      b.两阶段最小二乘法2SLS 或 Heckman两步法;

      c.GMM或系统GMM(当模型存在异方差时可用);

      d.matching类;

      e.DID;

2、误差不满足均值为0的处理:无

3、异方差问题的处理(《例解回归分析》Samprit Chatterjee   Ali S.Hadi  p121)

      a.变换模型形式;

      b.加权最小二乘法(WLS);

      c.Y的对数变换;

      d.Y的幂次变换;

4、自相关问题的处理

      a.Cochrane-Orcutt,当自相关属于纯自相关可采取此种措施;

      b.引进具有时序效应的新变量,当自相关是由于忽略了某个变量引起的,一旦加入该变量,这种自相关现象自然会消失;有时我们找不到这样的变量,只能试试将原始变量做差分运算。

      c.根据实际情况引入示性变量

      d.引入滞后预测变量上一期或多期的数据

      e.时间序列模型中也可以包含趋势项,数据中具有时间趋势也是常见现象,模型中加入t的函数作为预测变量,实践中,通常加入时间t或t方,即时间的线性项或2次项

      f.在数据处理中,使用目标变量的一阶差分(yt-yt-1)或滞后型变量(yt-a*yt-1)

 

(二)预测变量假定不满足的处理

1、非随机性不满足时的处理:无

2、取值没有随机误差不满足时的处理:无

3、预测变量间假定线性无关假定不满足时的处理

      a.施加约束条件(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p194)

      b.利用主成分的计算(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p192)

      c.搜索模型中回归系数的线性函数(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p195)

      d.主成分回归或岭回归方法替代传统的最小二乘法,岭回归是通过最小二乘法的改进,允许回归系数的有篇估计量存在而补救多重共线性的方法。

      e.偏最小二乘法,偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

      f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计,因此追加样本信息是解决该问题的一条有效途径。

      g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

      h.若要保留所有自变量,则应避免根据t统计量对单个参数进行检验;对因变量y值的推断限定在自变量样本值的范围内。

 

tips:本文内容总结如下表

假设类型基本假设假设的检验方法不满足假设的处理办法
误差的假设正态性假设Jarque-Bera统计量使用IV工具变量
Kolmogorov-Smirnov检验两阶段最小二乘法2SLS或 Heckman两步法
QQ图GMM或系统GMM(当模型存在异方差时可用)
标准化残差关于拟合值的散点图matching类
 DID
0均值假设不展开阐述不展开阐述
等方差假设关于x的标准化残差图检验变换模型形式(《例解回归分析》p121)
Goldfeld - Quandt检验法加权最小二乘法(WLS)(《例解回归分析》p121)
White检验法Y的对数变换
Park检验法Y的幂次变换
Gleiser检验法 
独立性假设标准化残差的顺序图配合游程检验Cochrane-Orcutt
Ljung-Box检验引进具有时序效应的新变量
Durbin-Watson检验法根据实际情况引入示性变量
LM检验法引入滞后预测变量上一期或多期的数据
ADF检验法引入趋势项-t或t方
 引入目标变量的差分或滞后数据
预测变量的假设非随机性假设不展开阐述不展开阐述
无随机误差假设不展开阐述不展开阐述
互相线性无关假设计算x间相关系数施加约束条件(《例解回归分析》p194)
模型线性关系检验(F检验)显著,大多数回归系数t检验不显著利用主成分的计算(《例解回归分析》p192)
回归系数的正负号与预期的相反搜索模型中回归系数的线性函数(《例解回归分析》p195)
容忍度(tolerance)与方差扩大因子(VIF)主成分回归或岭回归
 偏最小二乘法
 增加样本容量
 剔除一个或多个自变量

 

 

 

参考文献

1.多重共线性的判别与解决 http://www.360doc.com/content/20/1023/19/72085106_942042673.shtml

2.内生性问题及其产生原因 https://zhuanlan.zhihu.com/p/110645711

3.内生性问题:起因,类型和解决办法https://zhuanlan.zhihu.com/p/156905895

4.《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

这篇关于多元线性回归之基本假定的验证和处理办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166267

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

MyBatis延迟加载的处理方案

《MyBatis延迟加载的处理方案》MyBatis支持延迟加载(LazyLoading),允许在需要数据时才从数据库加载,而不是在查询结果第一次返回时就立即加载所有数据,延迟加载的核心思想是,将关联对... 目录MyBATis如何处理延迟加载?延迟加载的原理1. 开启延迟加载2. 延迟加载的配置2.1 使用

Android WebView的加载超时处理方案

《AndroidWebView的加载超时处理方案》在Android开发中,WebView是一个常用的组件,用于在应用中嵌入网页,然而,当网络状况不佳或页面加载过慢时,用户可能会遇到加载超时的问题,本... 目录引言一、WebView加载超时的原因二、加载超时处理方案1. 使用Handler和Timer进行超

Python中处理NaN值的技巧分享

《Python中处理NaN值的技巧分享》在数据科学和数据分析领域,NaN(NotaNumber)是一个常见的概念,它表示一个缺失或未定义的数值,在Python中,尤其是在使用pandas库处理数据时,... 目录NaN 值的来源和影响使用 pandas 的 isna()和 isnull()函数直接比较 Na

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言