多元线性回归之基本假定的验证和处理办法

2023-10-08 15:30

本文主要是介绍多元线性回归之基本假定的验证和处理办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。

 

一 基本假定

(一)误差的假定

1、服从正态分布

      标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服从正态分布;否则,模型存在内生性问题,内生性会破坏参数估计的“一致性”。

      内生性产生的原因有:

          a.测量误差:指的是模型使用的解释变量的数值和真实数据有误差(被解释变量的测量误差不会导致内生性)

          b.遗漏解释变量:现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响,还对某个解释变量有影响,内生性问题就出现了。

         c.互为因果:被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果。

         d.动态面板偏差:动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

2、均值为0

      (待补充

3、等方差假定

      或方差齐性假定,误差有相同(但未知)的方差,如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。产生的原因主要有:

      a.模型中遗漏了某些解释变量

      b.模型函数形式的设定误差

      c.样本数据的测量误差

     d.随机因素的影响

4、相互独立

  (自相关问题)标准的关于模型误差的假设是这样的:第i个误差和第j个误差是不相关的;误差项的相关性暗示这样一种可能性:现在建立的模型还没有将数据中所包含的全部信息表达出来;当观察数据具有自然顺序时(如时间顺序),这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候,应特别关注误差的自相关和季节性效应,同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的:

       a.在时间或空间上,相邻数据的残差趋于相似(又叫纯自相关)

       b.遗漏解释变量,通常,自相关性是由遗漏了与时间相关的变量引起的,即如果被忽略的变量的相继值之间是相关的,那么相应的观测误差之间也会出现相关性,

 

tips:当模型存在异方差或自相关对模型的影响包括:

      a. 回归系数的最小二乘估计是无偏的,但是不再具有最小方差;

      b.方差和回归系数的标准差会被严重低估;即比实际值小很多,从而给出一个假想的精确估计;

      c.置信区间和通常采用的各种显著性检验的结论,严格来说不再是可信的。

(二)预测变量的假定

1、非随机性:预测变量的非随机性,即他们的取值是固定的,在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立,但对结果的解释必须修改,当预测变量是随机变量时,所有推断都是关于观测数据的条件推断。

2、取值没有随机误差:这个假定几乎是不能满足的,测量误差的存在会降低预测的精度,影响误差的方差,负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性,所在在实际分析中,对此类假设不予关注和讨论,但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关:该假定是为了保证最小二乘解的唯一性,若该假定不成立,称为共线性问题

 

二 验证方法

(一)误差的假定的验证

1、误差服从正态分布的检验方法 :

     a.Jarque-Bera统计量;

     b.Kolmogorov-Smirnov检验;

     c.QQ图;

     d.标准化残差关于拟合值的散点图;

2、均值为0验证:无

3、同方差验证(异方差问题)检验方法

      a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成,则没有明显的异方差性;

      b.Goldfeld - Quandt 检验法;

      c.White检验法;

      d.Park检验法;

      e.Gleiser检验法

4、相互独立(自相关性)检验方法

      a.标准化残差的顺序图配合游程检验;

      b.Ljung-Box检验;

      c.Durbin-Watson检验法;

      d.LM检验法;

      e.ADF检验法;

(二)预测变量假定的检验

1、非随机性检验:无

2、取值没有随机误差的检验:无

3、预测变量间假定线性无关(多重共线性问题)的检验

       a.计算模型中各对自变量之间的相关系数,如果存在一个或多个相关系数是显著的,就表示存在多重共线性非问题

       b.当模型的线性关系检验(F检验)显著时,几乎所有的回归系数的t检验却不显著

       b.回归系数的正负号与预期的相反

       d.容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。

三 处理方式

(一)误差假定不满足的处理

1、误差不服从正态分布的处理

      a.使用IV工具变量;

      b.两阶段最小二乘法2SLS 或 Heckman两步法;

      c.GMM或系统GMM(当模型存在异方差时可用);

      d.matching类;

      e.DID;

2、误差不满足均值为0的处理:无

3、异方差问题的处理(《例解回归分析》Samprit Chatterjee   Ali S.Hadi  p121)

      a.变换模型形式;

      b.加权最小二乘法(WLS);

      c.Y的对数变换;

      d.Y的幂次变换;

4、自相关问题的处理

      a.Cochrane-Orcutt,当自相关属于纯自相关可采取此种措施;

      b.引进具有时序效应的新变量,当自相关是由于忽略了某个变量引起的,一旦加入该变量,这种自相关现象自然会消失;有时我们找不到这样的变量,只能试试将原始变量做差分运算。

      c.根据实际情况引入示性变量

      d.引入滞后预测变量上一期或多期的数据

      e.时间序列模型中也可以包含趋势项,数据中具有时间趋势也是常见现象,模型中加入t的函数作为预测变量,实践中,通常加入时间t或t方,即时间的线性项或2次项

      f.在数据处理中,使用目标变量的一阶差分(yt-yt-1)或滞后型变量(yt-a*yt-1)

 

(二)预测变量假定不满足的处理

1、非随机性不满足时的处理:无

2、取值没有随机误差不满足时的处理:无

3、预测变量间假定线性无关假定不满足时的处理

      a.施加约束条件(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p194)

      b.利用主成分的计算(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p192)

      c.搜索模型中回归系数的线性函数(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p195)

      d.主成分回归或岭回归方法替代传统的最小二乘法,岭回归是通过最小二乘法的改进,允许回归系数的有篇估计量存在而补救多重共线性的方法。

      e.偏最小二乘法,偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

      f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计,因此追加样本信息是解决该问题的一条有效途径。

      g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

      h.若要保留所有自变量,则应避免根据t统计量对单个参数进行检验;对因变量y值的推断限定在自变量样本值的范围内。

 

tips:本文内容总结如下表

假设类型基本假设假设的检验方法不满足假设的处理办法
误差的假设正态性假设Jarque-Bera统计量使用IV工具变量
Kolmogorov-Smirnov检验两阶段最小二乘法2SLS或 Heckman两步法
QQ图GMM或系统GMM(当模型存在异方差时可用)
标准化残差关于拟合值的散点图matching类
 DID
0均值假设不展开阐述不展开阐述
等方差假设关于x的标准化残差图检验变换模型形式(《例解回归分析》p121)
Goldfeld - Quandt检验法加权最小二乘法(WLS)(《例解回归分析》p121)
White检验法Y的对数变换
Park检验法Y的幂次变换
Gleiser检验法 
独立性假设标准化残差的顺序图配合游程检验Cochrane-Orcutt
Ljung-Box检验引进具有时序效应的新变量
Durbin-Watson检验法根据实际情况引入示性变量
LM检验法引入滞后预测变量上一期或多期的数据
ADF检验法引入趋势项-t或t方
 引入目标变量的差分或滞后数据
预测变量的假设非随机性假设不展开阐述不展开阐述
无随机误差假设不展开阐述不展开阐述
互相线性无关假设计算x间相关系数施加约束条件(《例解回归分析》p194)
模型线性关系检验(F检验)显著,大多数回归系数t检验不显著利用主成分的计算(《例解回归分析》p192)
回归系数的正负号与预期的相反搜索模型中回归系数的线性函数(《例解回归分析》p195)
容忍度(tolerance)与方差扩大因子(VIF)主成分回归或岭回归
 偏最小二乘法
 增加样本容量
 剔除一个或多个自变量

 

 

 

参考文献

1.多重共线性的判别与解决 http://www.360doc.com/content/20/1023/19/72085106_942042673.shtml

2.内生性问题及其产生原因 https://zhuanlan.zhihu.com/p/110645711

3.内生性问题:起因,类型和解决办法https://zhuanlan.zhihu.com/p/156905895

4.《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

这篇关于多元线性回归之基本假定的验证和处理办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166267

相关文章

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Java Response返回值的最佳处理方案

《JavaResponse返回值的最佳处理方案》在开发Web应用程序时,我们经常需要通过HTTP请求从服务器获取响应数据,这些数据可以是JSON、XML、甚至是文件,本篇文章将详细解析Java中处理... 目录摘要概述核心问题:关键技术点:源码解析示例 1:使用HttpURLConnection获取Resp

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Python处理函数调用超时的四种方法

《Python处理函数调用超时的四种方法》在实际开发过程中,我们可能会遇到一些场景,需要对函数的执行时间进行限制,例如,当一个函数执行时间过长时,可能会导致程序卡顿、资源占用过高,因此,在某些情况下,... 目录前言func-timeout1. 安装 func-timeout2. 基本用法自定义进程subp

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

Java字符串处理全解析(String、StringBuilder与StringBuffer)

《Java字符串处理全解析(String、StringBuilder与StringBuffer)》:本文主要介绍Java字符串处理全解析(String、StringBuilder与StringBu... 目录Java字符串处理全解析:String、StringBuilder与StringBuffer一、St

浅析Java中如何优雅地处理null值

《浅析Java中如何优雅地处理null值》这篇文章主要为大家详细介绍了如何结合Lambda表达式和Optional,让Java更优雅地处理null值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录场景 1:不为 null 则执行场景 2:不为 null 则返回,为 null 则返回特定值或抛出异常场景

MySQL 中的 LIMIT 语句及基本用法

《MySQL中的LIMIT语句及基本用法》LIMIT语句用于限制查询返回的行数,常用于分页查询或取部分数据,提高查询效率,:本文主要介绍MySQL中的LIMIT语句,需要的朋友可以参考下... 目录mysql 中的 LIMIT 语句1. LIMIT 语法2. LIMIT 基本用法(1) 获取前 N 行数据(

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka?1.2 Kafka的核心概念二、Ka