数据分析中的统计Test

2024-08-26 04:32
文章标签 统计 test 数据分析

本文主要是介绍数据分析中的统计Test,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在数据分析中,遇到统计问题的时候,基本可以按照下表来:
statistics method

(图片来源自网上,出处不详)


那么首先我们需要判断是否是正态分布(Normal Distribution), 四种方法:
  1. 绘制数据的直方图,看叠加线——这是一种粗略的方法,且不是硬性( hard-and-fast)指标。一般来说看得多了你就知道哪些是属于正态分布,哪些不属于。

  2. 偏态值(Skewness)峰态值(Kurtosis):
    Skewness 是关于分布是否对称的指标。
    分为正偏态分布(positively skewed distribution ,整体往左偏)和负偏态分布(negatively skewed distribution,整体往右偏)
    Kurtosis 是关于分布峰值陡峭情况的一个指标。
    它是指整个曲线的形状是钟型(bell-shaped )的而不是例如肥胖型或尖峰型等等。
    正态分布的Skewness 和 Kurtosis 都是 0,所以离0 越远越不是正态分布,但是到底多少距离 0 我们可以认为它是正态的呢?这个就难办了,所以出现了下面的办法,它是结合了偏态值和峰态值的一种统计检验方法。

  3. Kolmogorov-Smirnov test (K-S)Shapiro-Wilk (S-W) test
    他们是通过comparing your data to a normal distribution with the same mean and standard deviation of your sample 来检验是否正态的。
    如果检验不显著(NOT significant,即大于0.05),则是正态的,显著的话(significant,即小于0.05),则是非正态的。
    需要注意的是,样本越大,越有可能得到显著的结果。

  4. 另外一种方法就是做图画点的方法,叫做“Normal Q-Q Plot”。
    The black line indicates the values your sample should adhere to if the distribution was normal. The dots are your actual data. If the dots fall exactly on the black line, then your data are normal. If they deviate from the black line, your data are non-normal.

一些很明显不是正态分布的情形:
when the outcome is an ordinal variable or a rank
when there are definite outliers or
when the outcome has clear limits of detection.


第二个就是判断是否是方差齐性(Homogeneity of variance)

首先要知道什么是方差齐性:是指每一个总体的方差都是相同的。它是ANOVA分析的基础。数学表示如下:

这篇关于数据分析中的统计Test的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107553

相关文章

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

hdu4267区间统计

题意:给一些数,有两种操作,一种是在[a,b] 区间内,对(i - a)% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

hdu4417区间统计

给你一个数列{An},然后有m次查询,每次查询一段区间 [l,r] <= h 的值的个数。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead

hdu3333区间统计

题目大意:求一个区间内不重复数字的和,例如1 1 1 3,区间[1,4]的和为4。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents:

Golang test编译使用

创建文件my_test.go package testsimport "testing"func TestMy(t *testing.T) {t.Log("TestMy")} 通常用法: $ go test -v -run TestMy my_test.go=== RUN TestMyTestMy: my_test.go:6: TestMy--- PASS: TestMy (0.