学习笔记|正负偏态的转换方法|对数转换|正态得分法|适用条件|《小白爱上SPSS》课程:加餐 | 如何将非正态分布数据转换为正态分布的?手把手教你SPSS操作

本文主要是介绍学习笔记|正负偏态的转换方法|对数转换|正态得分法|适用条件|《小白爱上SPSS》课程:加餐 | 如何将非正态分布数据转换为正态分布的?手把手教你SPSS操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 学习目的
  • 软件版本
  • 原始文档
  • 将非正态分布数据转换为正态分布
    • 一、正负偏态的转换方法
      • (一)正偏态数据转换方法
      • (二)负偏态数据转换方法
    • 三、正态性检验
      • (一)操作如下
      • (二)结果解读
      • 四、SPSS:对数转换法
        • (一)选择检验方法和操作步骤
        • (二)结果验证和解读
      • 五、SPSS:正态得分法
        • 需要注意
    • 六、划重点

学习目的

加餐 | 如何将非正态分布数据转换为正态分布的?手把手教你SPSS操作

软件版本

IBM SPSS Statistics 26。

原始文档

《小白爱上SPSS》课程
#统计原理

将非正态分布数据转换为正态分布

在前面我们学过的参数检验中,比如两独立样本T检验和单因素方差分析中,有一个重要前提条件是连续型变量要满足正态分布。
如果遇到非正态分布数据怎么办?
一种建议是选用合适的非参数检验方法,比如两样本秩和检验;另一种是对原始进行转换使得其满足正态分布特性。
这一讲,我们来讲解下如何转换?

一、正负偏态的转换方法

正态分布转换方法有很多,比如:对数变换、平方根变换、平方根反正弦变换、平方变换、倒数变换、Box-Cox变换、正态得分法。
这里选择几种常用方法讲解,起示范作用。
数据转换分成两种情况,一种是正偏态数据,另一种是负偏态数据,每种又分成轻度、中度和严重三种情况。

(一)正偏态数据转换方法

1、轻度正偏态分布
当偏度值>0,偏度值为其标准误差的2-3倍,即Z-score=2~3,此时认为资料分布呈现轻度的正偏态分布,故考虑对变量x取根号开平方的方法来进行转换。
SPSS语句如下:
COMPUTE x_new = SQRT(x)
(SQRT为开平方根Square Root缩写)
2、中度正偏态分布
当偏度值>0,偏度值为其标准误差的3倍以上时,即Z-score>3,此时认为资料分布呈现中度的正偏态分布,可以考虑对变量x取对数来进行转换。可以取自然对数(ln)或以10为底的对数(log10)。
SPSS语句如下:
COMPUTE x_new = LN(x)
COMPUTE x_new = LG10(x)
注意:LG10的纠正力度较强,有时甚至会矫枉过正,将正偏态转换为负偏态,因此在进行正态转换后一定要对该变量再次进行正态性检验。
3、重度正偏态分布
对于两端波动比较大的数据资料,极端值可能产生较大的影响,此时可以考虑取倒数的方法来进行转换。
SPSS语句如下:
COMPUTE x_new = 1/x
若你不太熟悉SPSS语法编辑窗口,则可通过SPSS中“转换”—“计算变量”实现,找到sqrt, ln, lg10等函数。
在这里插入图片描述
注意:根号下要求数据均为非负数(即≥0),对数要求数据均为正数(即>0);取倒数要求分母不为0, 如果变量x中出现上述情况,则需要先将其进行一定的转换,如x+K或K-x,再对其取根号、对数或倒数。其中K为一个常数,可以根据需要进行赋值,例如赋值为1,或取数据的最小值、最大值等。

(二)负偏态数据转换方法

对于负偏态分布的数据资料,首先需要将负偏态资料进行反转,转换为正偏态,然后再参考正偏态分布资料的转换方法进行转换。
反转的方法:首先找出该数据系列的最大值max,用最大值+1,再减去每个数值。
1、轻度负偏态分布
SPSS语句如下:
COMPUTE x_new = SQRT(max+1-x)
2、中度负偏态分布
SPSS语句如下:
COMPUTE x_new = LN(max+1-x)
COMPUTE x_new = LG10(max+1-x)
3、重度负偏态分布
SPSS语句如下:
COMPUTE x_new = 1/(max+1-x)
二、实战案例
下面是42名员工的月收入,试检验其正态性。若不服从正态性,请将其转化为正态分布。
读数据:

GET FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\加餐:非正态分布数据的转换.sav'. 

在这里插入图片描述

三、正态性检验

这里主要通过SPSS的探索性描述统计方法来考察收入的分布情况。

(一)操作如下

点击分析——描述统计——探索
将“收入”选入因变量列表,点击 图 --勾选直方图–勾选含检验的正态图–继续–确定。
命令行:

EXAMINE VARIABLES=原始收入数据/PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*//COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

(二)结果解读

1.描述看峰度偏度
在这里插入图片描述
在这里插入图片描述
由以上结果可知,偏度系数的绝对值均大于1.96,可以认为该组样本数据不服从符合正态分布。
4.看正态性检验结果
在这里插入图片描述
5.结果解读:
当数据量≤50时,倾向于以夏皮洛-威尔克(S-W)检验结果为准;
当数据量>50时,倾向以柯尔莫戈洛夫-斯米诺夫(K-S)检验结果为准;当数据量>5000时,SPSS只会显示K-S检验结果。
本例中,我们检验40名员工收入的正态分布情况,由上表显示,样本量(可参考自由度那一列数值)小于50,故以夏皮洛-威尔克(S-W)检验结果为准。检验的p值(即显著性那一列)为0.000,小于0.05,具有统计意义,不支持原假设。说明40名员工收入不符合正态分布,故认为收入不满足正态性。

四、SPSS:对数转换法

(一)选择检验方法和操作步骤

由上可知,因本案例中偏度值<0,为负偏态,偏度值为其标准误差的3倍以上,故考虑对变量x取对数来进行转换。对于负偏态分布的数据资料,首先需要将负偏态资料进行反转,转换为正偏态,然后再参考正偏态分布资料的转换方法进行转换。
Step1:反转的方法为:首先找出该数据系列的最大值max,用最大值+1,再减去每个数值,本例子中最大值为15510,处理后数据名称为“反转后数据”如下:
在这里插入图片描述
命令行:

COMPUTE 反转数据=15510+1-原始收入数据. 
EXECUTE.

处理结果如下:在这里插入图片描述
Step2: 对反转后数据进行对数转换,以Log10为例,步骤如下:
(1) 选择转换→ 计算变量
(2) 在目标变量(T)框中输入一个新的变量名:新收入数据,作为数据转换后的变量名,此处设定为新收入数据。
(3) 在函数组中选择算数,在函数和特殊变量中双击Lg10,此时在数字表达式框中显示LG10(?)
(4) 从变量列表中双击反转后数据,此时在数字表达式框中显示:LG10(反转数据)
在这里插入图片描述
(5) 点击确定完成操作,操作完成,出现新收入数据列。
命令行:

COMPUTE 新收入数据=LG10(反转数据). 
EXECUTE.
(二)结果验证和解读

重新验证正态性:

EXAMINE VARIABLES=新收入数据/PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*//COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

结果:
在这里插入图片描述
在结果输出的描述表格中显示,计算偏度系数和峰度系数均大于1.96,正态性检验p<0.001,故说明转换后数据仍不服从正态分布(读者可以采用【倒数】转换方法尝试下,结果仍然不服从正态分布)。
至此,本公众号建议不进行正态分布数据转换,而采用非参数检验方法。因为,一般而言,收入这个变量的总体数据是不服从正态分布的。
当然,我们也可采用正态得分方法操作,使其转换为正态分布。

五、SPSS:正态得分法

(一)选择转换→个案排秩检验
将原始收入数据选入变量(V)框中,点击类型排秩选项框,取消默认勾选的秩,勾选正态得分选项。在比例估算公式下有4种方法可供选择,默认Blom方法,其他方法也可以进行尝试,点击继续再点击确定完成操作。
在这里插入图片描述
命令行:

RANK VARIABLES=原始收入数据 (A) /NORMAL /PRINT=YES /TIES=MEAN /FRACTION=BLOM.

我们可以看到在程序运行后在变量列表中多出了一个名为N原始的新变量,即为计算的正态得分。
在这里插入图片描述
重新验证正态性:

EXAMINE VARIABLES=N原始收/PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*//COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

下图为采用探索方法对N原始收入数据正态性检验以验证转化效果。
在这里插入图片描述
在这里插入图片描述
在结果输出的描述表格中显示,偏度系数和峰度系数均小于1.96,正态性检验p=1.000>0.05,故说明转换后数据服从正态分布。

需要注意

基于正态得分法得到的数据,在编秩过程中额外地加入原本不属于数据本身的分布特征,因此在一般统计方法中,并不能直接当做正态数据使用,其标准差、方差等信息与原始数据的计算结果也并不一样。这种转换,仅能用作在构建复杂模型时的探索

六、划重点

(1)正态分布转换方法有很多,包括:对数变换、平方根变换、平方根反正弦变换、平方变换、倒数变换、Box-Cox变换(SPSS软件实现不了)和正态得分法等。
(2)不是任何非正态数据都可以进行正态转换,只有把握认为数据的总体分布是正态的时候才可做正态转换。
(3)如果一种正态分布转换方法没成功,则需要多次其他转换方法,甚至要创造性提出转换方法,从中选择效果较好者。
(4)如果通过多次变量转换的方法依然无法转换成功,就不再适用于T检验、方差分析等方法了,这时可采用前期介绍过的非参数检验的方法来进行分析,例如Wilcoxon检验和Mann-Whitney U检验方法等。
(5)在对线性回归模型进行解释时,如果使用函数转换的方法对变量进行转换,则应对转换后的变量给予解释,或者可以根据转换时使用的函数关系,倒推原始自变量对原始因变量的效应大小。

这篇关于学习笔记|正负偏态的转换方法|对数转换|正态得分法|适用条件|《小白爱上SPSS》课程:加餐 | 如何将非正态分布数据转换为正态分布的?手把手教你SPSS操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/342783

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;