数据挖掘——宁县（区、市）农村居民人均可支配收入影响因子分析（论文）

本文主要是介绍数据挖掘——宁县（区、市）农村居民人均可支配收入影响因子分析（论文），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《数据挖掘与分析》课程论文

题目：宁县（区、市）农村居民人均可支配收入影响因子分析

xx学院xx班：xxx

2022年6月

摘要：农村居民人均可支配收入可能被农作物产量、牲畜存栏、农作物播种数量等诸多因素影响。为此，本文利用逐步回归分析法分析了宁县1989-2001年8个因素对农村居民人均可支配收入的影响，最后结论表明，总人口数、农业人口数、大牲畜存栏量都对农村居民人均可支配收入有显著影响，以此为切入点，可提议当地在发展建设时，增加人口数和大牲畜存栏量，达到增加农村居民人均可支配收入的目的。
关键词：逐步回归分析；农村居民人均可支配收入影响；
一、引言
三农问题事关国计民生，如何解决好三农问题也一直是困扰国家政府的一大难题。解决三农问题关键是提高农民收入，在国家政策的扶持下，我国农民人均纯收入不断提高，由1994年的1340.28元上升到2021的18931元。与此同时，我国农村居民的生活消费支出也由1994年的1150.42元上升到2021年的15916元。但是我国GDP的快速增长、工业产品物价不断提高、农产品物价增长有限的情况下，我国城乡居民收入差距进一步拉大，农村居民在生活必需品包括食品、日用品、住房、医疗、教育等生活消费支出方面不断增大。满足农民的日常生活消费支出也是解决三农问题的最低要求。宁县农村居民的人均可支配收入与哪些因素相关程度大，是否可以通过增加某一方面的投入来提高农村居民的收入，这是我的研究目的。
二、采用的数学方法
此次研究内容中，讨论的是每个自变量对因变量干的相关分析，因此选用回归分析来研究。
逐步回归分析方法的基本思路是自动从大量可供选择的变量中选取最重要的变量，建立回归分析的预测或者解释模型。其基本思想是:将自变量逐个引入，引入的条件是其偏回归平方和经检验后是显著的。同时，每引入一个新的自变量后，要对旧的自变量逐个检验，剔除偏回归平方和不显著的自变量。这样一直边引入边剔除，直到既无新变量引入也无旧变量删除为止。它的实质是建立“最优”的多元线性回归方程。
逐步回归分析有两种方法，分别为逐个淘汰法和逐个添加法，在这里使用第一种方法——逐个淘汰法。其算法构建步骤如下。
1.   首先建立包括所有自变量的线性回归方程；
2.   根据自变量的偏向回归系数显著性检验F值，从最小的开始，一次删除一个自变量；
3.   直到所有自变量的偏回归系数达到显著为止；
4.   建立最优的多元线性回归方程。
三、原始数据
宁县1989-2001年农村居民相关收入如表3.1所示。

表3.1 宁县1989-2001年原始数据
总人口数（万人）农业人口（万人）农林牧渔总产值（万元）农业总产值（万元）农作物播种面积（千公顷）粮食总产量（吨）大牲畜存栏（万头）羊存栏（万只）农民家庭人均可支配收入（元）

四、计算过程及结果
1. 第一次计算
对原始数据进行转置处理（如表4.1所示），并保存为txt文件，进行程序计算处理（如图4.1所示），得到结果（如图4.2所示）。

图4.1 第一次计算主要修改内容

图4.2 第一次计算结果

如图4.2所示，x1的偏回归系数显著，x2、x3、x4、x5、x6、x7、x8都不显著，而x4的偏回归系数F值最小，删除x4自变量的所有数据。

2. 第二次计算
根据第一步计算，将x4所有数据删除，得到第二次计算的数据（表4.2所示），对它进行转置，保存为txt文件，进行程序计算（图4.3），并得出结果（图4.4）。
表4.2第二次计算转置前数据

图4.3 第二次计算主要修改内容

图4.4 第二次计算结果

如图4.4所示，x1、x6偏回归系数显著，x2、x3、x4、x5、x7不显著，其中，x3的偏回归系数最小，删除x3自变量的所有数据。

3. 第三次计算
删除x3一列的数据如表4.3所示，对其进行转置，保存为txt文件，修改程序（图4.5）计算，得到结果（如图4.6所示）。
表4.3 第三次计算转置前数据

图4.5 第三次计算主要修改内容

图4.6 第三次计算结果
如图4.6所示，x1、x2、x5显著，x3、x4、x6偏回归系数不显著，而x3的偏回归系数F值最小，删除x3自变量的所有数据。

4.第四次计算
根据上述计算结论，删除x3所有数据，得到如表4.4所示数据，对其进行装置并保存为txt文件，计算结果。

表4.4 第四次计算转置前数据

图4.7 第四次计算主要修改内容

图4.8 第四次计算结果

如图4.8所示，x1、x2、x5偏回归系数显著，x3、x4不显著，而x3的偏回归系数最小，删除x3自变量的所有数据。

5. 第五次计算
删除x3一列的数据如表4.5所示，对其进行转置，保存为txt文件，修改程序（图4.9）计算，得到结果（如图4.10所示）。

表4.5 第五次计算转置前数据

图4.9 第五次计算主要修改内容

图4.10 第四次计算结果

如图4.10所示，x1、x2、x4偏回归系数显著，x3不显著，删除x3自变量的所有数据。
6. 第六次计算
根据上一步计算结果，得到表4.6，继续进行上述步骤。

表4.6 第六次计算转置前数据

图4.11 第六次计算主要修改内容

图4.12 第六次计算结果

如图4.12所示，x1、x2、x3的偏回归系数都显著，得到最优的回归方程为：Y=-3970.304399+118.382097x1-11.031890x2-49.161171x7.

五、结论与分析
通过上述计算过程以及得出的回归方程，总人口数、农业人口以及大牲畜存栏量对农民家庭人均可支配收入有显著影响，从1989年至2001年总人口数呈现增长趋势，农业人口数从1989年至2001年总体呈现增长趋势，但在1995至1997年农业人口数量相比下降（如表5.1所示），针对此分析结果，建议政府以及相关部门加强农业人口数量的管理，避免人口减少，尽可能使人口数量增加，提高农村居民人均可支配收入。

从表5.2可以看出，从1989年-2001年大牲畜存栏总体呈现下降趋势，建议扩大牲畜存栏量以达到增加农民收入的目的。

六、参考文献
【1】王黎明，程颖，杨楠.应用回归分析.复旦大学出版社.008.6.

完整版Word请参考以下链接：

https://download.csdn.net/download/qq_53142796/87942717https://download.csdn.net/download/qq_53142796/87942717